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Le espressioni regolari (o regexp, regex, RE, tutte abbreviazioni di 
"regular-expression") sono una sintassi attraverso la quale si possono 
rappresentare insiemi di stringhe. Sono spesso utilizzate da editor di 
testo per la ricerca e la sostituzione di porzioni del testo, ma trovano 
anche ampi utilizzi nella programmazione, web e non. PHP, Perl, Python, 
Java, Javascript, C e molti altri linguaggi, più o meno noti, fanno largo 
utilizzo delle regexp per effettuare controlli e operazioni sulle stringhe 


che processano. 
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Introduzione 

Esistono alcuni concetti che sono trasversali a tutto il mondo 
dell'informatica; se ne sente parlare spesso, ma altrettanto spesso non si 
hanno le idee troppo chiare su di essi. Le espressioni regolari (in inglese 
regular expressions 0, più concisamente, regex o anche regexp), fanno 
sicuramente parte di questo insieme. 

Se siete già abili utilizzatori delle espressioni regolari, questo libro non 
fa per voi, perché probabilmente non ha nulla da insegnarvi. Se invece 
fate parte di quella schiera di persone che si domandano cosa mai siano 
e a cosa servano queste misteriose e sfuggenti espressioni regolari, allora 
queste pagine possono insegnarvi qualcosa. 

Nel lontano 1950, il matematico Stephen Kleene definì i regular sets 
(insiemi regolari), il primo concetto da cui ebbero origine le espressioni 
regolari: avrete senza dubbio intuito che devono essere estremamente 
potenti se, più che cinquantenni, vengono ancora utilizzate! 

Abbiamo scritto che l'anno di nascita delle regular expression è il 1950 
ma in effetti questa affermazione non è proprio esatta. La prima vera 
applicazione a implementarle è stata l'editor QED, esteso da Ken 
Thompson nel 1966 per comprendere le regex. Se questo nome non vi 
‘suona’ nuovo, forse è perché Ken fu uno degli autori di Multics, 
l'antenato dei sistemi operativi simil-Unix, e del suo famoso editor ed: 
inutile dire che, grazie a lui, l'uso delle espressioni regolari è stato 
pervasivo sia nell'uno sia negli altri. Assieme a Thompson lavorò allo 
sviluppo di Multics anche Dennis Ritchie, autore, insieme a Brian 
Kernighan, di uno dei più famosi (se non il più famoso) libri 
dell'informatica: “The C Programming Language” (il linguaggio di 
programmazione C, spesso abbreviato come K&R dalle iniziali dei loro 
cognomi). Uno dei comandi di linea più utilizzati in ambito Unix (e non 
solo poiché ne esistono diversi cloni anche per Windows) è l'utilissimo 


grep che permette di eseguire ricerche di stringhe all'interno di uno o 


più file. Il suo nome è in realtà un acronimo: “search Globally for lines 
matching the Regular Expression, and Print them” (ricerca globale e 
visualizzazione di righe corrispondenti alle espressioni regolari). 

Certamente il 1966 non è proprio il 1950, ma rimane un anno che 
rientra nella preistoria dell'informatica. Al giorno d'oggi, un programma, 
dopo due o tre anni viene già etichettato come “vecchio”, figuriamoci 
qualcosa che ha più di quarant'anni. 

Comunque, nonostante queste premesse, le regular expression sono 
vive e vegete e ancora presenti in tutti i linguaggi di programmazione 
più diffusi: Python, Ruby, Java, Javascript, Perl, PHP, C, C++, C#; perfino 
Visual Basic, alla fine, ha dovuto cedere alle loro lusinghe... 

Se siete arrivati fin qui nella lettura, sicuramente vi starete chiedendo 
spazientiti: “sì, va bene, abbiamo capito, ma adesso vogliamo sapere: 
cosa fanno di buono queste benedette espressioni regolari?” 


In una parola cercano. In due parole: cercano e sostituiscono. 


Organizzazione del libro 

Questo manuale è stato pensato e scritto come un'agile guida 
all'utilizzo delle regex. 

Nel primo capitolo cercheremo di rendere più chiara questa 
definizione un po' troppo stringata. 

Nel secondo capitolo presenteremo qualche strumento che ci 
permetterà di provare gli esempi e gli esercizi che incontreremo nel 
corso della lettura. 

Dal terzo al quindicesimo capitolo affronteremo tutti i costrutti delle 
regular expression (caratteri speciali, classi di caratteri, ancoraggi, 
quantificatori e così via). 

Dal sedicesimo al ventitreesimo capitolo vedremo come vari linguaggi 
ci mettono a disposizione le regex: Python, Ruby, Perl, PHP, Javascript, 
Java, .NET e Visual Basic. 


Nell'Appendice A daremo uno sguardo un po' più approfondito alla 
teoria che sta dietro alle regular expression e alle sue principali 
implementazioni. 

L'Appendice B è dedicata ad alcuni esempi di problemi comuni che si 
possono risolvere agilmente con una regex. 

L'Appendice C contiene una tabella riassuntiva, la classica Quick 


Reference delle regular expression. 


Capitolo 1 


Che cosa sono le regular expression? 


Nell'introduzione abbiamo già provato a rispondere a questa 
domanda: le regular expression sono oggetti che ci aiutano a cercare 
qualcosa nelle stringhe che utilizziamo nei nostri programmi ed 
eventualmente sostituire parti di esse. 

Stiamo dando per scontato che chi sta leggendo questo libro sappia 
che cosa sono le stringhe (in ambito informatico e non calzaturiero) e 
che le abbia usate all'interno dei propri programmi. Il concetto di stringa 
in un programma è basilare, per cui non ci soffermeremo oltre, 
ricordando solo che una stringa è costituita da una sequenza di caratteri 
di qualsiasi lunghezza. 

Esistono infiniti casi in cui può essere utile ricercare dei valori 
all'interno di una stringa. Per esempio un'espressione regolare può 
essere impiegata per capire se il formato della stringa è accettabile per i 


seguenti elementi: 


e unindirizzo di posta elettronica; 
° una data; 

o un codice fiscale o un CAP; 

° un numero di carta di credito. 


Oppure possiamo estrarre una particolare sottostringa da una stringa 
più lunga: 


o il nome di una variabile in un file di codice sorgente; 


e un'etichetta in una pagina HTML; 


° un valore in un file XML. 


Se dobbiamo svolgere uno qualsiasi di questi compiti in un 
programma abbiamo due alternative: sviluppare di volta in volta del 
codice adhoc oppure utilizzare le espressioni regolari. 

In questo momento non ci è ancora chiaro il vantaggio che può 
derivare dall'uso delle espressioni regolari, per cui esaminiamo un 
esempio reale. 

Supponiamo di voler cercare la presenza della parola ‘sia’ all'interno di 
un testo T. Ecco come potrebbe essere lo pseudocodice (o meglio 
l'algoritmo) che stampa tutte le posizioni N in cui nel testo è presente la 
parola sia’: 


ciclo: fai scorrere N per tutta la lunghezza del testo T 
se i caratteri da N a N+2 sono "sia", allora 
stampa N 


Un po' prolisso, ma abbastanza facile. 

Ma, un momento... noi vogliamo cercare solo la parola sia’, mentre 
con questo programma troveremo anche la parola “ansia” e “siamo”. 
Così com'è non va bene! 

Riproviamo: 


ciclo: fai scorrere N per tutta la lunghezza del testo T 
se i caratteri da N a N+2 sono "sia", allora 
se i caratteri N-1 e N+3 sono " ", allora 
stampa N 


Ancora più prolisso, ma almeno abbiamo eliminato i ‘falsi positivi”: il 
programma stamperà la posizione trovata solo quando la parola sia” è 
preceduta e seguita da uno spazio. 

Tutto a posto adesso? Non proprio: se il testo contiene lettere 
maiuscole, non troveremo tutte le parole che cerchiamo. 

Altro tentativo: 


ciclo: fai scorrere N per tutta la lunghezza del testo T 
se i caratteri da N a N+2 sono "sia" o "SIA" allora 


se i caratteri N-1 e N+3 sono "" allora 
stampa N 


Cosa rischiamo di non trovare, adesso? E se l'autore del testo si 
trovava in una particolare vena artistica e ha scritto “siA” 0 siA” 0 "sIA”? 
Nuova modifica: 


ciclo: fai scorrere N per tutta la lunghezza del testo T 
se il carattere N è "s" o "S" 
se il carattere N+1 è "i" o "I" 
se il carattere N+2 è "a" o "A" 
se i caratteri N-1 e N+3 sono " " allora 
stampa N 

Ora siamo a posto? Purtroppo ancora no! In quali casi rischiamo di 
perderci la parola ‘sia’? Se la parola si trova all'inizio o alla fine del testo, 
l'istruzione che controlla se è preceduta e seguita da uno spazio fallirà. 
Lo stesso accadrà se la parola "sia" è seguita da un punto (come alla fine 
di una frase) o se è racchiusa fra virgolette. 

Per controllare i casi speciali appena elencati, il nostro algoritmo 
dovrebbe comportarsi in questo modo: 


ciclo: fai scorrere N per tutta la lunghezza del testo T 
se il carattere N è "s" o "S" 
se il carattere N+1 è "i" o "I" 
se il carattere N+2 è "a" o "A" 
se il carattere N-1 è 0 o non è una lettera 

se la posizione N+3 è maggiore 

della lunghezza di T o non contiene 

una lettera 
stampa N 


Forse ce l'abbiamo fatta. Questo codice dovrebbe andare bene. 


NOTA In realtà, volendo essere proprio pignoli, nel nostro 
algoritmo è rimasto un errore: la variabile N dovrebbe andare da 1 
a lunghezza di T meno 3 altrimenti rischiamo di ottenere un errore 


quando controlliamo il valore dei caratteri da N+1 a N+3. 


Il compito che ci eravamo prefissi era in apparenza davvero semplice, 
ma il codice che abbiamo dovuto scrivere per gestire tutti i casi speciali 


non lo è di certo! 

E se invece avessimo usato le espressioni regolari? Quale espressione 
regolare individua la parola ‘sia’? 

Eccola: 

\bsia\b 

Tutto qui. 

Questa semplice regex è soddisfatta ogni volta che la parola ‘sia’ è 
preceduta o seguita da un terminatore di parola (la b deriva da boundary, 
limite). Un terminatore di parola può essere uno spazio, una virgola, un 
punto esclamativo, una coppia di virgolette, ma anche l'inizio o la fine 
della stringa; in parole povere tutto quello che non può far parte di una 


parola. 


NOTA All'interno della nostra regex, per distinguere il carattere 
speciale “b” dal carattere "b” vero e proprio, ci basta anteporre il 
simbolo ‘\° ovvero la barra inversa o backslash. Attenzione! Non è 


la barra che normalmente separa le parti di una data! 


Questo semplice esempio dovrebbe essere già sufficiente per 
dimostrare la maggior versatilità e semplicità delle regex. 

Se qualcuno avesse ancora dei dubbi, provi a immaginare il codice che 
dovrebbe scrivere per una ricerca complessa come la seguente. 

Trovare all'interno di una frase tutte le parole di otto lettere che 
contengono la sottostringa “tex”, ma non all'inizio e nemmeno alla fine 
di essa. 

Sicuramente i più curiosi vorranno vedere subito la regex che svolge 
questo specifico compito. Eccola qui: 

\b(?=\w{8}\b)\w{1,4}tex\w® 
Una sola riga, anzi, poco più di una ventina di caratteri e siamo a 


cavallo. 


Capitolo 2 


Come provare le regex? 


Leggere questo libro senza provare di volta in volta i diversi esempi 
presentati, sarebbe un esercizio di astrazione molto faticoso e, 
francamente, poco produttivo. Pertanto questo capitolo illustrerà 
qualche strumento che ci metterà in grado di verificare il funzionamento 
delle espressioni regolari che incontreremo di volta in volta nel corso 
della lettura delle prossime pagine. 

Possiamo suddividere gli strumenti in due gruppi: strumenti online e 
strumenti offline. I primi sono sostanzialmente siti che offrono la 
possibilità di collaudare le espressioni regolari tramite un comune 
browser; i secondi sono programmi da scaricare da Internet e da 
installare sul proprio PC. 

La seconda categoria si può ulteriormente suddividere fra programmi 
freeware (distribuiti gratuitamente, a volte addirittura a livello di codice 
sorgente) e programmi shareware (utilizzabili gratuitamente solo per un 
periodo di tempo limitato e/o con funzionalità limitate;per ottenere il 
funzionamento completo del programma è necessario provvedere al 
pagamento di una licenza, normalmente di costo abbastanza esiguo). 
Nella nostra selezione prenderemo in considerazione solo strumenti 


freeware, ovvero completamente gratuiti. 


Strumenti online 


Gli strumenti accessibili online sono senz'altro comodi per provare le 
espressioni regolari più semplici, mentre sono un po' carenti quando le 
regex si fanno più complesse. 

Un altro fatto da tenere in considerazione è che ogni indirizzo 
Internet, nel momento stesso in cui viene stampato su una pagina 
cartacea, corre il rischio di diventare obsoleto. 

Per questo motivo indicheremo un solo sito (fra i tanti) per illustrare 
le funzionalità generalmente offerte da questo genere di strumenti. 

Se poi intendete cercarli da soli, babbo” Google sarà come sempre 


lieto di darvi una mano. 


NOTA Per trovare altri siti, potete, per esempio, utilizzare la 


seguente ricerca: regex OR regexp ‘online tester ”. 


RegExLib 


Il sito www.regexlib.com raccoglie molte risorse relative alle regex. Una di 
queste è un tester online accessibile al seguente indirizzo: 
http://regexlib.com/RETester.aspx 

Nella Figura 2.1 vediamo l'output ottenuto provando l'espressione 


d'esempio del primo capitolo, ‘\bsia\b”, che cercava la parola sia”. 


vediamo se funziona bene con sla qmesta ira non con ansia o con 
23400, 


\bsxis)b 


Submit | 














Figura 2.1 La regex d'esempio del primo capitolo. 


Nel primo campo (Source, sorgente) abbiamo inserito la stringa da 
esplorare; nel secondo campo (Pattern, modello) abbiamo inserito la 
regex e, dopo aver fatto clic sul pulsante Submit (sottoponi), possiamo 
verificare il risultato (Results, risultati e Match, corrispondenza). 

Come vediamo, la nostra regex ha funzionato correttamente: è stata 
individuata la parola “sia” ma non le parole ‘ansia’ e siamo”. 

Proviamo adesso l'espressione più complessa che abbiamo presentato 
alla fine del capitolo precedente: 


\b(?=\w{8}\b)\w{1,4}tex\w* 

Il compito che ci eravamo prefissi con questa regex era il seguente. 

Trovare all'interno di una frase tutte le parole di otto lettere che 
contengono la sottostringa “tex”, ma non all'inizio e nemmeno alla fine 
di essa. 

Nella Figura 2.2 vediamo che anche questa regex non ci delude: 
vengono infatti individuate le due parole di otto lettere atexwill’ e 
“willtexa”, che contengono la stringa "tex, ma non la parola "texwille”, che 


inizia con la stringa "tex. 





questa frase contiene due parole che soddisfano las ricerca: 
cqmeata atexwill, questa rmilltexa ma non questa texmille 


Patterni 
“bp (2=\w18)}\b)\w{1,4)tex\w7 














Figura 2.2 Una regex più complessa. 


Strumenti offline 


Gli strumenti offline, rispetto ai cugini online, richiedono un po' più di 
lavoro da parte nostra: dobbiamo cercare il sito che contiene il 
programma, verificare che esista la versione per il nostro sistema 
operativo e infine scaricare e installare il programma. 

Ma una volta svolti questi passi cominciano i vantaggi: normalmente 
le funzionalità e l'interfaccia sono migliori e naturalmente possiamo 
comodamente utilizzarli anche mentre non siamo connessi a Internet. 

Sceglieremo anche questa volta una sola opzione: Regex Coach. 

Regex Coach è forse tra i migliori programmi freeware e ha l'indubbio 
vantaggio di essere disponibile anche per sistemi operativi diversi da 
quello che, al 90%, usate normalmente sul vostro personal computer, 


ovvero anche per Linux, FreeBSD e Mac. 


NOTA Il 90% vi sembra una percentuale troppo elevata? Purtroppo 


è del tutto verosimile, come potete leggere nel seguente articolo: 


http://en.wikipedia.org/wiki/Comparison_of_Windows_and_Linux. 


A onor del vero dobbiamo dire che Linux, FreeBSD e Mac OS X 
contengono già a livello di sistema operativo una serie di strumenti che 


utilizzano le regular expression (alcuni esempi sono grep, awk e vi). 


NOTA grep è un'utility che ricerca tramite le regex una stringa 
all'interno di uno o più file e/o directory. 

awk è un'utility che, tramite l'omonimo linguaggio di 
programmazione, permette di elaborare con le regular expression 
dati in formato testuale. 

vi è uno degli editor più diffusi; per le funzionalità di ricerca e 


sostituzione permette all'utente di utilizzare delle regex. 


Regex Coach 


Il sito dal quale possiamo scaricare questo programma è il seguente: 


http://weitz.de/regex-coach/ 

Non ci soffermeremo troppo sull'installazione perché, una volta 
scaricato e lanciato l'eseguibile, non ci sono particolari opzioni da 
scegliere. 

Comunque, per non lasciare nulla al caso, nelle Figure 2.3, 2.4 e 2.5 
mostriamo la prima e le ultime due schermate dell'installazione. 





@ Setup - The Regex Coach pal iel es 


Welcome to the The Regex Coach 
Setup Wizard 


This vil natali The Rage Conch 09.1 on pourcecomputer 


Itis iesommented ihat you close all cher applicotione before 
corlinang 


Cic Nesi to continua, or Canos to ek Setup. 











% Setup - The Regex Coach 


Ready to Install 
Setupie now raadvto begh iretaling Tha Regak Coach on pour computer. 








Cick Installto contnue with the nstalistion. cr cick Back il you wsrt to reviene or 
change any sallinga. 










Destinabon locator: 
CAFrogiam Fies\The Reoex Coach 






Start Meny foldai: 
The Regex Conch 







Cicate a desktop icon 








Figura 2.4 La pagina di riepilogo dell'installazione del programma. 





#5 Setup - The Regex Coach L sl fl A 


Completing the The Regex Coach 
Setup Wizard 













Setup has finished instaing The Regex Coach on pour 
comoute:. The applicabon mey be launched by selecing the 
inztaled icons 







Cick Firish to ext Setup 





fr Launch The Reoex Cosch 








Figura 2.5 La pagina finale, al termine dell'installazione. 


Il programma comprende anche la documentazione e un tutorial, 
anche se il suo uso è estremamente intuitivo e semplice. 

Per dimostrarne il funzionamento al di là di ogni ragionevole dubbio, 
nelle Figure 2.6, 2.7 e 2.8 mostriamo l'output ottenuto con le nostre due 
solite espressioni regolari (sia quella facile, sia quella più complessa). 

Nelle Figure 2.7 e 2.8 vediamo che nella stringa da cercare, nel campo 
Target string, compare il carattere ! (punto esclamativo) subito prima 
della fine della riga. Non siamo stati noi a inserirlo; il programma lo 
inserisce automaticamente quando deve andare a capo nel caso di 
un'espressione particolarmente lunga. In questo modo possiamo 


facilmente scoprire se ad andare a capo siamo stati noi o meno. 


NOTA Quando utilizzeremo esempi di regex su stringhe di più 


righe, sarà molto utile ricordarci di questo dettaglio. 





questa Frase contiene dee parele che soddisfano la ricerca: questa atoxuill, 
iquosta willtexa ma non questa texwille 








Figura 2.7 La prima occorrenza della regex più complessa del primo capitolo. 


K he Regex Cosch 





MB P= 100 B} Ad) Me 1, pres 


Questa frase contiene dee parele che soddisfano la ricerca: questa atoxuill, ? 
quosta willtexa na non questa texwille 


March E2 tori Bi 10 G0. 

Consi info | Tres |Fiepkeca| Sol |Steo | 
Highlight [pres background 
F selection Mi 23 i 


C reti Fi ci Ci FE 


Ign R hon Set gi segg 0 Endafztmg » 


ACT I I 





Figura 2.8 La seconda occorrenza della regex più complessa del primo capitolo. 


Il programma Regex Coach evidenzia, di volta in volta, solo la prima 
occorrenza della regex che abbiamo inserito. Se vogliamo evidenziarle 
tutte dobbiamo selezionare l'opzione “g" che compare sulla destra della 
finestra principale, sotto il campo Regular expression. 

Nella Figura 2.9 vediamo in dettaglio ciò a cui facciamo riferimento: la 


prima occorrenza è evidenziata in giallo, le successive in verde. 


NOTA Come vedremo nei prossimi capitoli, le altre opzioni, 
ovvero "i, m° e s° so no modificatori che agiscono globalmente 
sulla regex; in breve ‘i rende la regex insensibile alle lettere 
maiuscole e minuscole, mentre “m° e ‘s” rendono la regex operativa 
rispettivamente in modalità a righe multiple e singole. L'opzione 


x è caratteristica del linguaggio Perl e consente di ignorare tutti 


gli spazi bianchi all'interno della regex. 


Con Regex Coach possiamo anche provare a svolgere delle 
sostituzioni. 
Per farlo dobbiamo fare clic sulla scheda indicata dalla freccia nella 


Figura 2.10. In questo modo potremo inserire una seconda regex nel 


campo denominato Replacement string e nella parte inferiore della 
finestra, all'interno del campo Replacement result, potremo vedere il 
risultato della nostra sostituzione. 


Se vogliano evideaziare tutte le striaghe sella regex, dobbiamo cliccare 
sulla epzione "q'" suidonriata dalla Froccia. 


malta fa forata 


Pa Parata nella gente, 
cana 


perda ' 
eno canna è Oosalasr. 





Figura 2.10 Una sostituzione che ci riporta alle scuole elementari... 


LI 


NOTA La maggior parte degli esempi presenti in questo libro è 
stata collaudata con Regex Coach. Nei rari casi in cui questo non è 


accaduto, lo preciseremo chiaramente. 


Conclusioni 


In questo capitolo abbiamo introdotto alcuni strumenti che ci 
permetteranno di provare gli esempi presenti in questo libro. 

In particolare abbiamo presentato un sito Internet che offre la 
possibilità di provare online le regex. 

Quindi abbiamo presentato un programma di pubblico dominio da 


installare sul nostro PC per ottenere lo stesso risultato. 


Capitolo 3 


Caratteri normali e caratteri speciali 


Nel primo capitolo del volume abbiamo introdotto una regular 
expression molto semplice: 
\bsia\b 


Questa regex ci permette di trovare tutte le occorrenze della parola 
"sia all'interno di una stringa. Come abbiamo già detto, il carattere "\b" 
corrisponde al ‘bordo’ di una parola. 


Vediamola all'opera. 


NOTA Nel libro, useremo per gli esempi la seguente 
rappresentazione: prima il testo, poi l'espressione regolare e infine 
nuovamente il testo, nel quale sono state evidenziate le 
sottostringhe che soddisfano la regex. 

Testo: 


Questa regex ricerca la parola sia in una frase: ma 
siamo sicuri che sia corretta? 


Regex: 
\bsia\b 
Risultato: 


Questa regex ricerca la parola sia in una frase: ma 
siamo sicuri che sia corretta? 


NOTA Notiamo che la stringa sia” è evidenziata due volte e solo 


quando non fa parte di una stringa più ampia (come per esempio 
nella parola ‘siamo °). 


La nostra regex è composta dai sette caratteri seguenti: 
\bsia\b 

Si tratta di cinque caratteri normali (b, s, i, a, b) e di due barre inverse (0 
backslash). 

In realtà faremmo meglio a raggruppare i caratteri nel seguente modo: 
\b s i a \b 

Cosa differenzia la prima e l'ultima "b’ dai caratteri "s°, “i e “a? I più 


attenti avranno già intuito la risposta: il backslash che le precede. 


Backslash e caratteri normali 


Se invece della parola "sia" avessimo voluto cercare la parola bob’, 
avremmo dovuto utilizzare la seguente regex, altrettanto semplice: 
\bbob\b 


In questo caso, nella nostra regex ci sono ben quattro lettere “b”. Cosa 
differenzia la prima e l'ultima "b” dalle altre due? Come abbiamo già 
detto nel paragrafo precedente è il backslash le precede. 

Questa convenzione è importantissima: è proprio il codice ‘\" che ci 
permette di distinguere in una regular espression quando un carattere 


normale assume un significato speciale. 


NOTA Come sappiamo, in questo caso la *” preceduta da ‘\° 


assume il significato speciale di “bordo di una parola”. 


Esistono molti caratteri che, quando sono preceduti da un backslash, 
possono assumere un significato speciale. 

Il seguente elenco presenta tutti i caratteri speciali, accompagnati da 
una semplice descrizione. 

Non preoccupatevi se, per ora, alcune definizioni vi appaiono oscure; 


più avanti esamineremo in dettaglio ogni carattere speciale. 


Inizio del testo. 


Per ora accontentiamoci di sapere che questi caratteri, se preceduti da 





un backslash, assumono un significato speciale. 

Vediamo ancora in azione un esempio in cui utilizziamo il carattere 
speciale ‘\b". 

Testo: 


Hai uno splendido localino, bob! 
Hai uno splendido localino, bobby! 


Regex: 
\bbob\b 
Risultato: 


Hai uno splendido localino, bob! 
Hai uno splendido localino, bobby! 


Se avessimo cercato solo “bob”, senza i codici “\b", avremmo ottenuto 
un risultato differente. 
Testo: 


Hai uno splendido localino, bob! 
Hai uno splendido localino, bobby! 


Regex: 
bob 
Risultato: 


Hai uno splendido localino, bob! 
Hai uno splendido localino, bobby! 


Backslash e caratteri speciali 


Nelle regular expression, il simbolo di backslash "\° ha una 
funzionalità duplice e complementare: oltre a rendere speciali i caratteri 
normali (come abbiamo appena visto) è in grado di rendere normali i 
caratteri speciali. 

Come è possibile? Il fatto è che esistono alcuni caratteri che hanno un 
significato speciale già di per sé e, se vogliamo ricercarli così come sono, 
dobbiamo anteporgli il nostro caro "\'. 

Vediamoli in quest'altro elenco (di nuovo, non preoccupatevi troppo di 
comprendere appieno tutte le definizioni). 


Inizio della riga. 


 [@Qpelsiasi carattere tranme i 


pg teme 





NOTA Per ora l'unico elemento di questo elenco che dovrebbe 


esserci noto è l'ultimo: il backslash. 


Questi codici, come abbiamo appena detto, hanno un significato 
particolare all'interno di una regex, per cui, se vogliamo cercarli, 
dobbiamo anteporre loro un backslash. Per esempio, se vogliamo cercare 
la stringa ‘3*3=9", abbiamo il problema del carattere speciale ‘*’. Vediamo 
come possiamo risolverlo con il backslash. 

Testo: 
6+3=9 e 3*3=9 ma 3+3=6 

Regex: 
3\*3=9 

Risultato: 
6+3=9 e 3*3=9 ma 3+3=6 


Cosa sarebbe successo se non avessimo usato il backslash? 


Testo: 

6+3=9 e 3*3=9 ma 3+3=6 
Regex: 

3*3=9 
Risultato: 


6+3=9 e 3*3=9 ma 3+3=6 


NOTA Il carattere speciale * significa "0 o più”. Quindi la regex 
‘3*3=9” cerca una stringa composta da °3=9°, preceduta da zero o 
più caratteri 3". Nel nostro caso, la stringa ‘3-9 è però presente 


due volte, preceduta in entrambi in casi da zero occorrenze del 
carattere ‘3°. 


E se volessimo cercare proprio il backslash? Semplice. 
Testo: 


Il carattere \ è molto speciale. 
Regex: 

\\ 
Risultato: 


Il carattere \ è molto speciale. 


Conclusioni 
In questo capitolo abbiamo scoperto che nelle regex esistono caratteri 
normali e caratteri speciali. 


A. volte un carattere, se preceduto dal backslash, assume un 
significato particolare. 


Viceversa un codice speciale, se preceduto dal backslash, perde il 
proprio significato particolare. 


Capitolo 4 


Le stringhe semplici 


Utilizzare le regular expression per ricercare stringhe semplici ci fa 
venire in mente la classica espressione “sparare con un cannone a un 
uccellino”. 

L'immagine è forse un po' macabra, ma se impariamo a usare le 
regular expression, abbiamo sicuramente a disposizione uno strumento 
estremamente potente che però, se vogliamo, possiamo usare anche per 


compiti più semplici. 


Caratteri singoli 


Il compito più semplice in assoluto è senza dubbio la ricerca di un 
singolo carattere. Proviamo a cercare in una stringa il carattere ‘x°. 
Testo: 


Usare le regex per cercare una x è pura pigrizia 


Regex: 


Risultato: 
Usare le regex per cercare una x è pura pigrizia 

Non c'è molto da spiegare in questo esempio: l'espressione regolare è 
composta dal singolo carattere che vogliamo cercare. 

Appena più in alto nella “scala evolutiva” delle regex c'è la ricerca di 
un carattere speciale. Proviamo a cercare il carattere ‘’, come 


nell'esempio seguente. 


Testo: 


figural.tif 
figura2.tif 
figura3.tif 
figura4.tif 


Regex: 


Risultato: 


figura l.tif 
figura2.tif 
figura3.tif 
figura4.tif 


NOTA Come vedremo nel prossimo capitolo, il simbolo ‘. ci 
permette di cercare un carattere qualsiasi. Pertanto, in questo 
esempio, tutti i caratteri soddisfano la nostra ricerca, in quanto, 


ovviamente, tutti i caratteri sono “caratteri qualsiasi. 


Non è certo il risultato che volevamo ottenere. Come abbiamo detto 
nel capitolo precedente, il simbolo ”.° è un codice speciale; pertanto, per 
utilizzarlo in una regex semplice, dobbiamo anteporgli il backslash. 

Testo: 


figural.tif 
figura2.tif 
figura3.tif 
figura4.tif 


Regex: 


Risultato: 


figural.tif 
figura2.tif 
figura3.tif 
figura4.tif 


Così va senz'altro meglio. 


Stringhe semplici 
Con le regex possiamo ovviamente ricercare anche le stringhe, 
composte da una sequenza di più caratteri. 
Per esempio proviamo a cercare la stringa “enza”. 
Testo: 


Senza dubbio ci vuole pazienza per imparare a usare le 
regex. Perfino Enza lo sa... 


Regex: 
enza 
Risultato: 


Senza dubbio ci vuole pazienza per imparare a usare le 
regex. Perfino Enza lo sa... 


I più attenti avranno notato che la regex non individua la stringa 
“Enza” con l'iniziale maiuscola. Questo non è un errore: le regex sono 
estremamente rigorose, per cui distinguono tra lettere maiuscole e 
minuscole. 

Proviamo invece a ricercare la stringa ‘Enza’. 

Testo: 


Senza dubbio ci vuole pazienza per imparare a usare 
le regex. Perfino Enza lo sa... 


Regex: 


Enza 


Risultato: 


Senza dubbio ci vuole pazienza per imparare a usare le 
regex. Perfino Enza lo sa... 


Come ci aspettavamo, ora la regex trova “Enza” ma non ‘enza’. 


Come vedremo più avanti, esistono vari modi per cercare 
contemporaneamente sia “Enza sia “enza”. Per gli impazienti ecco un paio 


” 


di esempi: possiamo usare la regex ‘[eE]nza” oppure ‘(lE)nza” oppure 
possiamo usare il modificatore che annulla la distinzione fra lettere 
maiuscole e minuscole (ma in quest'ultimo caso troveremmo anche le 
stringhe “ENZA”, eNzA’ e così via). 

Se ci serve, possiamo combinare nella stringa che stiamo cercando sia 
caratteri normali, sia caratteri speciali. 

Proviamo a cercare in un elenco di nomi di file tutte le estensioni 
. Ext. 

Testo: 


filel.doc 
file2.txt 
txt3.java 
file4.txt 
file5.py 


Regex: 
\txt 
Risultato: 


filel.doc 
file2.txt 
txt3.java 
file4.txt 
file5.py 


NOTA Notiamo come non sia stata individuata la stringa “txt” 
contenuta nel nome del terzo file: ciò è dovuto al fatto che nella 


prima parte della regex il codice \." ci permette di richiedere che il 


primo carattere della stringa sia il punto. 


Conclusioni 


In questo capitolo abbiamo esaminato le ricerche più semplici che 
possiamo realizzare con le regex: caratteri singoli o stringhe di caratteri 


di lunghezza fissa. 


Capitolo 5 


Il carattere jolly “.° 


Nei giochi di carte, il jolly può assumere il valore di qualunque altra 


carta. Anche nelle regex abbiamo il nostro jolly: il punto. 


s’ 


Cercare un carattere qualsiasi: il simbolo ‘. 


Sicuramente può capitarci di dover trovare una stringa nella quale 
uno o più caratteri non sono definiti a priori. 
Per esempio, supponiamo di dover cercare tutte le parole di quattro 


lettere che finiscono per ‘ari’. L'idea di provare a cercarle tutte è 


abbastanza peregrina: "bari, "cari, “fari”, “lari”, “mari”, “nari”, “pari”, "rari ; 
“sari”, "tari", "vari... ma quante sono? 

E se ce ne fosse qualcuna errata? Per essere sicuri dovremmo provare 
a cercarle tutte e ventisei. 

In questi casi viene in nostro soccorso il carattere jolly. Vediamo 
come. 

Testo: 


Vediamo se posso trovare mari e nari, con una bravura 
senza pari e anche se sbaglio i wari. 


Regex: 
«ari 


Risultato: 


Vediamo se posso trovare mari e nari, con una bravura 
senza pari e anche se sbaglio i wari. 


Facile, no? In un colpo solo abbiamo trovato tutte e quattro le parole 


di quattro lettere che terminano con ari. 


NOTA In realtà, qui abbiamo semplificato un po' troppo le cose: se 
la frase contenesse anche una o più parole come ‘luminari’ o 
‘cantinari” avremmo avuto qualche problema. Nel risultato 
sarebbero infatti state evidenziate anche queste parole, o meglio le 
loro ultime quattro lettere. Nei prossimi capitoli vedremo come 
evitare questo problema usando il terminatore di parola “\b" o i set 


di caratteri. 


E se dovessimo trovare tutte le parole di quattro lettere che iniziano 
con la lettera "b? 

È altrettanto semplice. 

Testo: 


Tutti i beri sono bari. E tanti baci a tutti... 


Regex: 


Risultato: 


Tutti i beri sono bari. E tanti baci a tutti... 


NOTA Inutile dire che anche qui avremmo potuto incorrere in 
altrettanti "falsi positivi”: se avessimo avuto qualche altra lettera 
‘b’ in qualunque punto di una parola, sarebbe stata evidenziata 


insieme alle tre lettere seguenti. 


Non solo lettere 


Dobbiamo però considerare il fatto che il carattere jolly equivale a 


qualsiasi carattere, non solo alle lettere: il punto individua anche lo 


spazio, le cifre e i caratteri speciali. L'unico carattere che non 
corrisponde al punto è il codice “\n° (a-capo). 


NOTA In realtà il carattere “.” può individuare anche il codice ‘n° 
(a-capo): però dobbiamo attivare la modalità ‘riga singola” con il 


” 


modificatore ‘/s°, come vedremo nel capitolo sui modificatori. 


L'esempio che segue chiarisce quanto appena detto. 
Testo: 


Ma siamo sicuri di trovare solo le parole di quattro 
lettere che finiscono in ari? 
(ari o 4ari dicevamo?) 


Regex: 
«ari 
Risultato: 


Ma siamo sicuri di trovare solo le parole di quattro 
lettere che finiscono in ari? 
(ari o 4ari dicevamo?) 


Come volevasi dimostrare abbiamo trovato più occorrenze, che però 
non sono mai parole di quattro lettere. Il punto individua anche lo 
spazio, la parentesi tonda e la cifra "4°. 


Conclusioni 


In questo capitolo abbiamo visto come utilizzare il carattere punto ‘.” 
per ricercare stringhe nelle quali uno o più caratteri non sono noti a 
priori. 

Abbiamo anche segnalato alcuni dei possibili problemi che possiamo 
incontrare usando tale carattere. 


Capitolo 6 


Cifre e spazi: \d, \D, \s e \S 


Spesso può essere necessario cercare una cifra all'interno di un testo, 
in una data posizione. 

Viceversa, possiamo talvolta voler evidenziare tutti i caratteri tranne le 
cifre. 

In una regex possiamo ottenere questi risultati con i comandi ‘\d" 
(l'insieme delle dieci cifre decimali) e “\p" (l'insieme complementare, 
ovvero tutti i caratteri tranne le dieci cifre). 

Due comandi analoghi, che per questo includiamo in questo capitolo, 
sono ‘“\s" e ‘\s". Il primo individua solo il carattere di spazio, mentre il 


secondo individua tutti gli altri caratteri. 


Le cifre: \d e \D 


In una regular expression possiamo richiedere che in una data 
posizione sia presente una cifra qualsiasi. 

Per esempio, se volessimo individuare una data in un testo potremmo 
usare ‘\d" nel seguente modo. 

Testo: 


La data di nascita di John von Neumann è il 
28/12/1903. 
La data di nascita di Linus Torvalds è il 28/12/1969. 


Regex: 
\d\d/\d\d/\d\d\d\d 


Risultato: 


La data di nascita di John von Neumann è il 
28/12/1903. 
La data di nascita di Linus Torvalds è il 28/12/1969. 


NOTA Questa regex permette di individuare solo le date in cui il 
giorno e il mese sono composti da due cifre, l'anno è composto da 
quattro cifre e i valori sono separati da una barra (o slash). 


Ovviamente, come vedremo nei prossimi capitoli, le regex offrono 


la possibilità di ricercare le date in modo più flessibile e avanzato. 


Se utilizziamo la versione maiuscola del comando, ‘“\D", possiamo 
individuare tutti i caratteri diversi dalle cifre. 

Vediamo un esempio. 

Testo: 
Ris: (123+341)*44/2=10208 

Regex: 
\D 

Risultato: 


Ris: (123+341)*44/2=10208 


Gli spazi: \s e \S 
In una regex possiamo anche distinguere il carattere spazio tramite il 
comando ‘\s°. 
Testo: 


"Parole, parole, parole e musica!" 
Questa riga è preceduta da tre spazi. 


Regex: 
\s 
Risultato: 


"Parole, parole, parole e musica!" 
Questa riga è preceduta da tre spazi. 


Così come accade con i comandi “\d” e “\p”, la versione maiuscola ‘\s° 


ci permette di individuare tutti i caratteri diversi da uno spazio. 
Testo: 


FRS BLD 78N12 L513A 
BRE MRC 64P23 L6110 


Regex: 
\S 
Risultato: 


FRS BLD 78N12 L513A 
BRE MRC 64P23 L6110 


Conclusioni 


In questo capitolo abbiamo visto come specificare tramite una regex 
la presenza di una cifra qualsiasi oppure di un qualsiasi carattere diverso 
da una cifra, rispettivamente con ‘\d" e “\D°. 

In modo analogo possiamo cercare uno spazio oppure ogni carattere 


tranne lo spazio, rispettivamente con ‘\s" e ‘\s°. 


Capitolo 7 


I set di caratteri: | |] 


Nei capitoli precedenti abbiamo visto come possiamo usare il carattere 
jolly “.° al posto di qualsiasi carattere e come possiamo individuare 
alcune classi di caratteri (cifre e spazi). 

Sicuramente sono possibilità interessanti, ma sarebbe ancora più utile 
poter specificare un qualsiasi insieme (o set) di caratteri. 

Le regex ci permettono di svolgere questi tipi di ricerche grazie ai 


caratteri speciali "[" e ‘] (le parentesi quadre aperta e chiusa). 


Un insieme di caratteri: [ ] 


In una regular expression possiamo specificare un insieme di caratteri 
in una data posizione. 

La sintassi è molto semplice e possiamo rendercene conto osservando 
il seguente esempio. 

Testo: 


file_1.doc 
file_a.doc 
file_b.doc 
file_c.doc 
file_z.doc 
file_d.doc 
file_e.doc 
file_f.doc 


Regex: 
file_[abcde]\.doc 


Risultato: 


file_1.doc 

file_a.doc file b.doc file_c.doc 

file_z.doc 

file _d.doc 

file_e.doc 

file_f.doc 
NOTA Nella regex abbiamo anteposto al punto il i" (backslash). 
Ormai dovremmo sapere che nelle regex alcuni caratteri hanno un 
significato speciale (il punto è uno di questi), per cercarli 


dobbiamo pertanto anteporgli il simbolo di backslash. 


Possiamo sfruttare questa possibilità se dobbiamo cercare una parola 
ma non sappiamo se inizia o meno con una lettera maiuscola. 
Testo: 
Marco in Germania ha speso qualche marco di troppo... 
Regex: 
[Mm]arco 
Risultato: 
Marco in Germania ha speso qualche marco di troppo... 
In questo modo abbiamo potuto cercare nel testo sia la stringa “Marco” 


sia la stringa “marco”. 


NOTA Un set può contenere diversi caratteri, ma comunque 
individua uno solo di essi. Nell'esempio precedente la prima stringa 


trovata è individuata dal carattere °M° e la seconda dal carattere 
‘m°. In pratica un set di caratteri individua una stringa di 


lunghezza 1. 


Sequenze di caratteri: [| - ] 


Nel primo esempio di questo capitolo abbiamo provato a cercare una 


#_ Mn I 


stringa in cui il sesto carattere poteva essere “a”, "b”, “c°, “d’ oppure ‘e’. 
file_[abcde]\.doc 


Ma se avessimo voluto cercare un carattere alfabetico qualsiasi? Ecco 
come possiamo farlo senza specificare tutti i 26 caratteri alfabetici. 
Testo: 


file_1.doc 
file_a.doc 
file_b.doc 
file_c.doc 
file_z.doc 
file_d.doc 
file_e.doc 
file_f.doc 


Regex: 
file_[a-z]\.doc 
Risultato: 


file_1.doc 

file_a.doc 
file _b.doc 
file_c.doc 
file_z.doc 
file d.doc 
file_e.doc 
file_f.doc 


Se all'interno delle parentesi quadre specifichiamo due caratteri 
separati da un trattino “-’, la regex individua i due caratteri in questione 


e tutti quelli compresi tra di essi. 


NOTA 1 caratteri che precedono e seguono il trattino devono essere 
in ordine crescente di codice ASCII. In altre parole, l'intervallo "A- 
Z° comprende tutte le lettere maiuscole; viceversa l'intervallo “Z-A” 
non comprende proprio nulla (nella maggior parte dei casi 


produrrà un errore). 


Possiamo utilizzare anche sequenze numeriche. 


Testo: 


doc_1.txt 
doc_2.txt 
doc_a.txt 
doc_b.txt 
doc _3.txt 


Regex: 
doc_[0-9]\.txt 
Risultato: 


doc_1.txt doc_2.txt 
doc_a.txt 
doc_b.txt 
doc_3.txt 


La regex è soddisfatta da ogni carattere compreso nell'intervallo 0-9. 


NOTA Il trattino ‘-” è un carattere “quasi-speciale’: al di fuori di 
un set può essere usato tranquillamente in una regex, mentre 
all'interno di un set possiamo specificarlo solo in prima o ultima 
posizione (oppure anteporgli il backslash), come nel seguente 


esempio. 


Testo: 


abced 
1234-5678 


pippo-pluto 
Regex: 

[0-9-] 
Risultato: 


abcd 
1234-5678 


pippo-pluto 
NOTA Nella regex "[0-9-]' il primo trattino indica la sequenza dei 
caratteri da "0° a "9° mentre il secondo (l'ultimo carattere del set) 


permette alla sequenza di individuare anche il trattino stesso. 


All'interno dello stesso set possiamo anche utilizzare più sequenze. 
Testo: 


print chr(0x43) 
print "I" 

print chr(65) 
print chr(0x4F) 


Regex: 
0x[0-9A-F][0-9A-F] 
Risultato: 


print chr(0x43) 
print "I" 
print chr(65) 
print chr(0x4F) 
NOTA In questo esempio siamo riusciti a individuare tutti i 


numeri esadecimali di due lettere. 


Tutti i caratteri ‘tranne’: [* ] 


Talvolta può essere più comodo specificare che desideriamo cercare 
tutti i caratteri tranne alcuni. 
Per esempio immaginiamo di voler escludere dalla nostra ricerca le 


cifre 1,72, 
Testo: 


3" e lo spazio. 


Non ci interessano le cifre come 1, 2 e 3 e lo spazio 
ma tutto il resto sì, compreso 4, 5 e 6. 


Regex: 

[123 ] 
Risultato: 

Non ci interessano le cifre come 1, 2 e 3 e lo spazio ma tutto il resto sì, compreso 4, 5 e 6. 
Il carattere * (accento circonflesso) indica pertanto la negazione 


all'interno di un set. Ovviamente possiamo anche specificare con una 


negazione una o più sequenze di caratteri con uno o più caratteri singoli, 
come nel seguente esempio. 
Testo: 


Adesso invece non ci interessano le cifre come 1, 2 e 
3, le lettere come abcd, lo spazio e la virgola. 


Regex: 
[a-z ,0-9] 
Risultato: 


Adesso invece non ci interessano le cifre come 1, 2 e 
3, le lettere come abcd, lo spazio e la virgola. 


NOTA Come possiamo notare, gli unici caratteri individuati dalla 


nostra regex sono il primo (la lettera “a” maiuscola) e l'ultimo (il 
punto). 
Se volessimo inserire il carattere "** all'interno di un set possiamo 
farlo tranquillamente, usando però l'accortezza di non metterlo in prima 


posizione. 
Testo: 


Possiamo anche inserire l'apice * in un set, basta non 
metterlo per primo. 


Regex: 
GS) 
Risultato: 


Possiamo anche inserire l'apice * in un set, basta non 
metterlo per primo. 


Conclusioni 


In questo capitolo abbiamo visto come chiedere a una regex di 


individuare più caratteri in una data posizione, utilizzando “[" e ‘7’ (le 


parentesi quadre). 


Possiamo specificare manualmente i caratteri desiderati, oppure 
possiamo indicare una o più sequenze o, infine, utilizzare la negazione 
("tutti i caratteri tranne...') tramite il carattere “*° (accento circonflesso) 


specificato nella prima posizione dopo la parentesi quadra aperta. 


Capitolo 8 


Le parole: \b, \B, \w e \W 


Finora abbiamo imparato a individuare, in un modo o nell'altro, dei 
caratteri: cifre, lettere, spazi, caratteri speciali e così via. 
Con questo capitolo cominciamo a esplorare alcune nuove entità che 


rendono ancora più efficaci le regex: i terminatori (o bordi) di parola "\b" 


” 


e \B° 
Inoltre introdurremo l'uso degli identificatori di parola: “\w" e “\W°. 


I bordi di una parola: \b 


In uno degli esempi dei capitoli precedenti abbiamo visto come 
individuare le parole che terminano con una determinata stringa. 

Ma se volessimo individuare solo le parole di tre lettere come 
potremmo fare? Potremmo forse usare lo spazio, ‘\s"? 

Vediamo. 

Testo: 
Tre lettere? Poche, ma non osiamo di più per ora. 

Regex: 
\s...\s 

Risultato: 
Tre lettere? Poche, ma non osiamo di più per ora. 


Su cinque parole ne abbiamo trovate solo due. Per di più la regex ha 


individuato anche gli spazi intorno alle due parole individuate: ciò è 


normale, in quanto abbiamo specificato espressamente i codici "\s° prima 
e dopo i tre caratteri jolly. 

Come possiamo fare? 

Proviamo a usare il terminatore di parola ‘\b". 


Testo: 

Tre lettere? Poche, ma non osiamo di più per ora. 
Regex: 

\b...\b 
Risultato: 


Tre lettere? Poche, ma non osiamo di più per ora. 


Adesso abbiamo esagerato! È vero che sono state individuate tutte e 
cinque le parole di tre lettere, ma abbiamo trovato anche due parole di 
due lettere... 

Come mai? Semplice, perché il carattere jolly è soddisfatto anche dallo 
spazio, per cui, nel caso della parola ‘ma’, la virgola corrisponde al primo 
‘\b”, lo spazio e le lettere “m’ e “a” corrispondo ai tre caratteri jolly e infine 


lo spazio dopo la parola corrisponde al secondo “\b". 


NOTA È importantissimo comprendere un concetto fondamentale 
delle regex: il terminatore di parola *\b" ha dimensione zero! Si 
dice infatti che è un ‘ancoraggio’, termine che spiegheremo in 
dettaglio nel prossimo paragrafo. Nel caso della frase "Ciao Lucia” 
ci sono ben quattro posizioni che soddisfano il terminatore ‘\b": 
prima della “C°, dopo la “o°, prima della "L’ e infine dopo l'ultima 
“a”. Vediamolo in un esempio. 


Testo: 
Ciao Lucia 

Regex: 
\b. 


Risultato: 


Ciao Lucia 


Qui sono stati individuati solo tre dei terminatori. Dopo l'ultimo infatti 
non c'è più alcun carattere e quindi il carattere jolly che segue il codice 
"\b° nella regex non può essere soddisfatto. 

Proviamo a utilizzare anche i set di caratteri. 

Testo: 

Tre lettere? Poche, ma non osiamo di più per ora. 

Regex: 

\b[a-zA-Z][a-zA-Z][a-zA-Z]\b 
Risultato: 


Tre lettere? Poche, ma non osiamo di più per ora. 


Ci siamo avvicinati, ma manca ancora una parola di tre lettere: ‘più’. Il 
risultato è corretto, perché nel set abbiamo inserito solo le lettere 
normali, mentre la lettera “ù’ è accentata. 

A questo punto potremmo iniziare a riempire i nostri set di caratteri 
accentati minuscoli, maiuscoli e così via... 

È la soluzione corretta? Ovviamente no. Vediamo nei prossimi 
paragrafi cosa possiamo fare. 


Gli ancoraggi 


Nel paragrafo precedente abbiamo detto che i comandi “\b" e "\B° 
hanno dimensione zero e fanno parte dell'insieme degli ancoraggi. 

Il termine è molto intuitivo e raggruppa tutte le istruzioni che in 
qualche modo agganciano (da qui il termine ancorare) la regex a una 
specifica posizione all'interno della stringa. 

In pratica un ancoraggio non individua un carattere, ma il punto di 


separazione fra due caratteri (oppure anche, come vedremo, tra l'inizio 


della stringa e il primo carattere o tra l'ultimo carattere e la fine della 
stringa). 
Ecco un esempio che chiarirà meglio le idee. 
Testo: 
Dove sono i bordi in questa stringa? 
Regex: 
\b 
Risultato: 
Dove sono i bordi in questa stringa? 
Nessun errore di stampa: non è stato individuato nemmeno un 


carattere. 
In realtà, in questa stringa ci sono molte posizioni che soddisferebbero 


l'ancoraggio ‘“\b°. 
Riproviamo. 
Testo: 
Dove sono i bordi in questa stringa? 
Regex: 
\b[a-zA-Z] 
Risultato: 
Dove sono i bordi in questa stringa? 
In questo esempio abbiamo individuato i bordi di parola seguiti da una 


lettera qualsiasi, minuscola o maiuscola. 


NOTA Il concetto di ancoraggio è davvero fondamentale e 
indispensabile nelle regular expression. Nei prossimi capitoli 


incontreremo altri ancoraggi molto utili. 


I caratteri di una parola: \w 


Per evidenziare facilmente tutte le parole di tre lettere ci basterebbe 
avere a disposizione un comando che sia soddisfatto da tutto tranne che 
dai caratteri che indicano un bordo di parola. 

Esiste questa entità? Ovviamente sì; si tratta di "\w". 

Vediamo un esempio. 

Testo: 

Tre lettere? Poche, ma non osiamo di più per ora. 

Regex: 

\b\w\w\w\b 
Risultato: 


Tre lettere? Poche, ma non osiamo di più per ora. 


Finalmente! Adesso siamo riusciti ad trovare tutte le parole di tre 


lettere; nulla di più e nulla di meno. 


NOTA Quali sono i caratteri che individuano il bordo di una 
parola? Purtroppo nelle varie versioni dei motori di regex e in base 
al linguaggio possono esserci differenze minime, che normalmente 


non ci devono preoccupare. Possiamo però avere una certezza: “\b 


e "\w° sono perfettamente complementari. 


I non bordi’ e i ‘non caratteri’: \B e \W 


” 


Cominciamo dalla versione inversa di “\w": “\W°. 

Il codice “\w" individua ogni carattere che rappresenta un bordo di 
una parola. 

Un paio di esempi ci chiariranno le idee più di ogni spiegazione. 

Testo: 


!"#$7&'()"+,-./0123456789:;<=>? 
@ABCDEFGHIJKLMNOPORSTUVWXYZ[\]f_ 
‘abcdefghijklmnopqrstuvwxyz{{}- 


Regex: 


\W 


Risultato: 


l"#$7&'()*+,-./0123456789:;<=>? 
@ ABCDEFGHIJKLMNOPORSTUVWXYZ[\]?_ 
‘abcdefghijklmnopqrstuvwxyz{{}= 


La regex "\w" individua tutti i caratteri tranne le lettere, le cifre e il 
carattere di sottolineatura. 

Facciamo la controprova. 

Testo: 


!"#$7&'()"+,-./0123456789:;<=>? 
@ABCDEFGHIJKLMNOPORSTUVWXYZ[\]f_ 
‘abcdefghijklmnopqrstuvwxyz{{}- 


Regex: 
\w 
Risultato: 


!"#$%&'()*+,-./0123456789:;<=>? 
@ABCDEFGHIJKLMNOPQRSTUVWXYZ[\]"_ 
‘abcdefghijklmnopqrstuvwxyz{}- 


Ora abbiamo la conferma che i caratteri individuati da “\w" e “\w° sono 
perfettamente complementari. 

La contrapposizione fra "\b" e "\B" merita un discorso un pochino più 
complesso. 

Cominciamo subito col dire che anche “\B" è un ancoraggio e che “\b" 
e “\B" sono uno la negazione dell'altro. Quindi, per capire quali posizioni 
vengono individuate da "8", dobbiamo pensare a quali sono quelle 
corrispondenti a ‘\b". 

La regex “\b" individua ogni posizione che precede o segue un 
carattere terminatore di parola, quindi, per esclusione, “\B" individua 
tutte le altre. In altre parole l'ancoraggio "*\B" individua ogni posizione tra 


due caratteri che non sono terminatori. 


Supponiamo di voler trovare tutte le parole di un elenco che 
contengono il numero ‘42°. 

Proviamo a usare una regex che sfrutta il comando ‘“\w". 

Testo: 


pippo 
a42b 
1442 
ab42cd 
prova 


Regex: 
\w42\w 
Risultato: 


pippo 
a42b 
1442 
ab42cd 
prova 


Abbiamo trovato i due “42” che cercavamo, ma sono stati evidenziati 
anche i caratteri che li precedono e li seguono. 

Se vogliamo trovare solo i "42" interni alle parole dobbiamo usare il 
comando ‘\B". 

Testo: 


pippo 
a42b 
1442 
ab42cd 
prova 


Regex: 
\B42\B 
Risultato: 


pippo 
a42b 
1442 
ab42cd 
prova 


Perfetto! La nostra regex ha individuato solo i "42" (e nessun'altra 


parte della stringa). 


Conclusioni 


In questo capitolo abbiamo incontrato la prima entità che ha 
dimensione zero: il bordo di una parola ‘\b". 

Abbiamo introdotto il concetto di ancoraggio, che indica la possibilità 
di agganciare una regex a una particolare posizione all'interno della 
stringa. 

Abbiamo anche visto il comando che rappresenta tutti caratteri che 
non sono bordi di una parola: “\w". 

Come normalmente succede con le regex, i corrispondenti maiuscoli 


‘\B° e “\W° individuano le negazioni delle entità “minuscole”. 


Capitolo 9 


L'inizio e la fine: *, $, \A e \Z 


Negli esempi che abbiamo incontrato finora abbiamo visto 
genericamente dei frammenti di testo nei quali effettuare le ricerche con 
le regular expression. 

In realtà, nella maggior parte dei casi, ci troveremo a effettuare 
ricerche all'interno di file di testo e, quindi, a ragionare in termini di 
singole righe di testo. 

È quindi chiara l'utilità degli ancoraggi che stiamo per introdurre e 
che ci permettono di individuare l'inizio e la fine di una riga: "° 
(l'accento circonflesso) e ‘$’ (il simbolo di dollaro). 

Se necessario potremo anche individuare la posizione di inizio e fine 
dell'intero file con gli ancoraggi “\A" e "\z°. 

Pazientiamo ancora un pochino: questo è l'ultimo capitolo dedicato ai 
comandi semplici: dal prossimo capitolo entreremo più nel vivo delle 


regex! 


L'inizio e la fine di una riga: * e $ 


Da un file di testo che abbiamo ricevuto via email dobbiamo estrarre 
tutte le righe di quattro caratteri composte unicamente da cifre. Non è 
un compito difficile da svolgere visivamente, ma diventa più complesso 
se dobbiamo farlo con un programma (ma se il file fosse di grandi 


dimensioni, anche l'operazione manuale richiederebbe del tempo). 


Come è facile intuire, visto il tema di questo libro, una semplicissima 
regex può venire in nostro soccorso. 
Testo: 


abcd 
1234 
ab12 
123 


Regex: 
A\d\d\d\d$ 
Risultato: 


abcd 
1234 
ab12 
123 


Abbiamo già visto in precedenza il significato del comando ‘\d", che 
individua ogni carattere numerico, mentre i due nuovi ancoraggi che 


abbiamo introdotto sono ‘“* (l'accento circonflesso), che individua 


l'inizio di una riga, e ’$’ (il dollaro), che individua la fine di una riga. 


NOTA Per far sì che gli ancoraggi *” e “$” individuino l'inizio e 
la fine di ogni riga, dobbiamo attivare la modalità multi-riga del 
motore di regex che stiamo utilizzando. In questo modo il testo 
viene considerato come una serie di righe distinte, separate in 
corrispondenza dei caratteri di a-capo. 


NOTA Se, per collaudare questa regex, stiamo usando Regex 
Coach, ricordiamoci di selezionare il modificatore “m° come 
indicato nella Figura 9.1. In questo modo il testo sarà considerato 


multi-riga e potremo simulare un file composto da più righe di 
testo. 


Vediamo un altro esempio, in questo caso proviamo a cercare la 
stringa "via ” 0 "Via ” ma solo all'inizio di una riga. 


Testo: 


Moravia 
via Roma 
Vianello 
Via Veneto 





| rhe Regex Coach 


NaNardxd 





Figura 9.1 Regex Coach con il modificatore multi-riga attivato. 
Regex: 

A[Vy]ia\s 
Risultato: 


Moravia 
via Roma 
Vianello 
Via Veneto 


Come per l'ancoraggio ‘\b", vediamo ora cosa succede se utilizziamo il 
codice ‘$ da solo. 
Testo: 


Dove finisco con il punto di domanda? 
Chi lo sa? Io no... 

Qui? No! 

Dove? 


Regex: 


Risultato: 


Dove finisco con il punto di domanda? 
Chi lo sa? Io no... 
Qui? No! 
Dove? 

Anche in questo caso non ci sono errori di stampa: cercare solo un 
ancoraggio con una regex non ha molto senso. 

Riproviamo aggiungendo un carattere (per di più si tratta di un 
carattere speciale, reso normale dal backslash che lo precede). 

Testo: 


Dove finisco con il punto di domanda? 
Chi lo sa? Io no... 

Qui? No! 

Dove? 


Regex: 
\?$ 
Risultato: 


Dove finisco con il punto di domanda? 
Chi lo sa? Io no... 
Qui? No! 
Dove? 
Questo esempio ha già più senso: abbiamo evidenziato gli unici due 
punti di domanda che si trovano in fondo alla riga e non quelli posti in 


altre posizioni. 


L'inizio e la fine del testo: \A e \Z 


I due ancoraggi ‘*’ e "$" possono individuare l'inizio e la fine di ogni 


riga in modalità multiriga o l'inizio e la fine di tutto il testo in modalità 


normale. 


Esistono due ancoraggi che invece, in qualunque modalità, 
individuano sempre e comunque l'inizio e la fine di tutto il testo; si tratta 
di “\A° e \Z”. 

Vediamoli all'opera in un paio di esempi. Testo: 


<HTML> 

<P>Qui non potrei usare <HTML> o </HTML>, ma lo uso lo 
stesso solo per questo esempio</P> 

</HATML> 


Regex: 
\A<HTML> 


Risultato: 


<HTML> 

<P>Qui non potrei usare <HTML> o </HTML>, ma lo uso lo 
stesso solo per questo esempio</P> 

</HATML> 


Come possiamo notare, è stato evidenziato solo il primo “<HTML>" e 
non quello presente nella seconda riga. Se non avessimo utilizzato 
l'ancoraggio “\A" sarebbero stati evidenziati entrambi . 

Riproviamo ora cercando il tag “</HTML>' finale. 

Testo: 


<HTML> 

<P>Qui non potrei usare <HTML> o </HTML>, ma lo uso lo 
stesso solo per questo esempio</P> 

</HATML> 


Regex: 
<J/HTML>\Z 
Risultato: 


<HTML> 

<P>Qui non potrei usare <HTML> o </HTML>, ma lo uso lo 
stesso solo per questo esempio</P> 

</HTML> 


Va da sé che questa volta, senza specificare l'ancoraggio “\z" avremmo 


trovato anche il tag “</HTML>" della seconda riga. 


Conclusioni 


In questo capitolo abbiamo visto come possiamo individuare con una 
regular expression l'inizio o la fine di una riga di testo con gli ancoraggi 
"A" (accento circonflesso) e “$" (dollaro). 

Abbiamo inoltre visto come individuare le posizioni di inizio e fine 


testo (o file) con gli ancoraggi “\A" e “\Z”. 


Capitolo 10 


I quantificatori: +, *, ? e {...} 


Come promesso, da questo capitolo entriamo nel vivo delle regex. 

Negli esempi incontrati finora, nelle nostre regular expression 
abbiamo sempre utilizzato un numero prefissato di caratteri. 
Sicuramente qualcuno si sarà chiesto come fare quando questa 
lunghezza non è nota a priori: come trovare le stringhe composte 
unicamente da cifre, di qualsiasi lunghezza oppure tutte le righe di un 
file composte unicamente da lettere maiuscole? 

I quantificatori sono stati definiti proprio per soddisfare queste e altre 


esigenze. 


Uno o più caratteri: + 

Nel paragrafo precedente ci siamo posti il problema di trovare le 
stringhe composte unicamente da cifre, senza sapere però quante. 

Come abbiamo già visto, possiamo indicare una cifra con "\d" e il 
bordo di una parola con ‘“\b°. 

Usando una combinazione di queste due istruzioni possiamo, per 
esempio, trovare le stringhe composte tra tre cifre. 

Testo: 
abcd 123 ab123cd 4567 eccetera 890 1, 2, 3... 

Regex: 
\b\d\d\d\b 

Risultato: 


abcd 123 ab123cd 4567 eccetera 890 1, 2, 3... 

Facile! 

Sarebbe altrettanto facile individuare le stringhe composte da una sola 
cifra oppure da due o da quante vogliamo. 

Ma come individuare in un colpo solo tutte le stringhe composte 
genericamente da un numero qualsiasi di cifre? 

La soluzione è rappresentata dal quantificatore "+.’ Il suo significato è: 
“considera una o più occorrenze dell'espressione precedente”. 

Vediamo come usare il quantificatore “+° per risolvere il nostro 
problema. 

Testo: 
abcd 123 ab123cd 4567 eccetera 890 1, 2, 3... 

Regex: 

\b\d+\b 

Risultato: 
abcd 123 ab123cd 4567 eccetera 890 1, 2, 3... 

Se volessimo utilizzare al posto di ‘\d" il set "[0-9]" dovremmo adottare 
un semplice accorgimento: il quantificatore “+” deve seguire la parentesi 
quadra. 

Testo: 
abcd 123 ab123cd 4567 eccetera 890 1, 2, 3... 

Regex: 

\b[0-9]+\b 

Risultato: 
abcd 123 ab123cd 4567 eccetera 890 1, 2, 3... 

Come vediamo il risultato è lo stesso. 

Proviamo ora a capire cosa fa la seguente regular expression: 


\w+@\w+\.\w+ 


Non sembra poi così complessa... Il simbolo “@” senz'altro è un indizio 
importante. Forse ha a che fare con gli indirizzi di posta elettronica? 

Vediamo se abbiamo indovinato. 

Testo: 


Per piacere inviate le domande per la FSF e per la GNU 
a gnu@gnu.org. 

Per piacere inviate link non funzionanti o altre 
correzioni o suggerimenti a webmasters@gnu.org. 


Regex: 
\w+@\w+\.\w+ 
Risultato: 


Per piacere inviate le domande per la FSF e per la GNU 
a gnu@ gnu.org. 

Per piacere inviate link non funzionanti o altre 
correzioni o suggerimenti a webmasters@ gnu.org. 


Niente male per una regex di una dozzina di caratteri: è riuscita a 
trovare tutti gli indirizzi di posta elettronica presenti nel testo. 

Ma siamo sicuri che sarebbero stati evidenziati tutti gli indirizzi validi? 

Riproviamo con un testo diverso. 

Testo: 


Complimenti e insulti per questi esempi possono essere 
spediti a tizio.caio@posta.biz o a sempronio@casella.postale.it. 


Regex: 
\w+@\w+\.\w+ 
Risultato: 


Complimenti e insulti per questi esempi possono essere 
spediti a tizio.caio@posta.biz o a sempronio@casella.postale.it. 


In effetti era troppo bello per essere vero: in questo esempio ci sono 
due indirizzi di posta validi che però non sono stati correttamente 
individuati. 

Il problema in questo caso è che il punto può anche appartenere a un 
indirizzo di posta elettronica formalmente corretto. 


Proviamo una versione leggermente più estesa della regex. 
Testo: 


Complimenti e insulti per questi esempi possono essere 
spediti a tizio.caio@posta.biz o a sempronio@casella.postale.it. 


Regex: 
[\w.]+@[\w.]+\.\w+ 
Risultato: 


Complimenti e insulti per questi esempi possono essere 
spediti a tizio.caio@posta.biz o a sempronio@casella. postale.it. 


Ecco fatto! Adesso la regex funziona come ci aspettavamo. È bastato 
utilizzare al posto di “\w' il set "1w.]" per indicare alla regex che nelle parti 


di un indirizzo di email può essere compreso anche il punto . 


NOTA Il carattere speciale “. (il jolly) può essere utilizzato così 
com'è all'interno di un set senza dover anteporre il backslash. Se 
proprio vogliamo, possiamo anche specificarlo, ma ciò non è 


obbligatorio in un set. 


Zero o più caratteri: * 


Nel paragrafo precedente abbiamo scritto una regex che cerca gli 
indirizzi email grazie al quantificatore "+": 
[\w.]1+@[\w.]+\.\w+ 

La prima versione della regex non ci permetteva di trovare tutti gli 
indirizzi contenenti il carattere punto, ma quest'ultima versione ha 
corretto il problema. 

Ma, forse, ne ha introdotto un altro. Vediamo quale. 


Testo: 


Questo indirizzo è valido: .tizio.caio@posta.biz? 
No! Questo invece sì: tizio.caio@posta.biz. 


Regex: 


[\w.]+@[\w.]+\.\w+ 
Risultato: 


Questo indirizzo è valido: .tizio.caio@ posta.biz? 
No! Questo invece sì: tizio.caio@ posta.biz. 


Il secondo indirizzo è stato evidenziato correttamente, ma nel primo 
c'è un punto di troppo all'inizio. 

Se togliamo il punto dal primo set della regex risolviamo questo 
problema reintroducendone un altro. 

Testo: 


Questo indirizzo è valido: .tizio.caio@posta.biz? 
No! Questo invece sì: tizio.caio@posta.biz. 


Regex: 
\w+@[\w.]+\.\\w+ 
Risultato: 


Questo indirizzo è valido: .tizio.caio@posta.biz? 
No! Questo invece sì: tizio.caio@posta.biz. 


Come volevasi dimostrare... 

Ma, per fortuna, anche in questo caso esiste una soluzione per i nostri 
problemi: il quantificatore ‘"*” (l'asterisco). Questo quantificatore è molto 
simile a ‘+’, tranne per un piccolo particolare: infatti il suo significato è il 
seguente: “considera zero o più occorrenze dell'espressione precedente”. 
L'unica differenza è proprio lo “zero” che, nel caso del quantificatore "+, 
era un “uno”. 

Con "** possiamo anche richiedere che l'espressione precedente sia 
del tutto assente. 

Vediamo ora una nuova regex che corregge il problema degli indirizzi 
di posta elettronica preceduti da un punto. 

Testo: 


Questo indirizzo è valido: .tizio.caio@posta.biz? 
No! Questo invece sì: tizio.caio@posta.biz. 


Regex: 
\w+[\w.]"@[\w.]H\.\w+ 
Risultato: 


Questo indirizzo è valido: .tizio.caio@posta.biz ? 
No! Questo invece sì: tizio.caio@ posta.biz. 


Eureka! Adesso anche questo problema è risolto. 

Come funziona la nostra nuova regex? Proviamo ad analizzare la parte 
che precede il simbolo “@': 
\w+[\w.]" 

Come funziona? 

I primi tre caratteri “\w+" chiedono che in prima posizione sia presente 
qualsiasi carattere alfanumerico (più il simbolo di sottolineatura) . 

A partire dalla seconda posizione può invece essere presente anche il 
punto. Attenzione: abbiamo detto “può” e non “deve”! Proprio per 
questo, dopo il set "[w]" abbiamo specificato il quantificatore ‘*, che 


indica la presenza di zero o più occorrenze. 


Espressioni opzionali (zero o uno): ? 


Il quantificatore ‘?° è un po' particolare perché indica che l'espressione 
che lo precede può essere presente solo zero o una volta, non di più. 

È una specie di operatore “opzionale”, nel senso che rende opzionale 
la presenza di ciò che lo precede. 


Testo: 


Ma come si scrive obiettivo? 
Sii obbiettivo e non obbbiettivo nella risposta... 


Regex: 
obb?iettivo 
Risultato: 


Ma come si scrive obiettivo? 
Sii obbiettivo e non obbbiettivo nella risposta... 


La regex ‘obb?iettivo’ è quasi una stringa fissa, dove l'unico carattere 
che può essere presente o meno è la seconda ‘b’. E infatti dopo di essa 
abbiamo specificato il quantificatore opzionale ‘?”. 

Correttamente, la parola errata contenente un'ulteriore terza ‘b’ 
(ovvero la parola “obbbiettivo) non è stata individuata. 

Un esempio forse più interessante può essere la regex che cerca la 
prima parte degli indirizzi dei siti web, che possono iniziare con ‘http’ o 
“https”. 

Testo: 


Il motore di ricerca è http://www.google.com mentre la 
mail è https://www.gmail.com. 


Regex: 
https?:// 
Risultato: 


Il motore di ricerca è http://www.google.com mentre la 
mail è https://www.gmail.com. 


Numero di ripetizioni: {...} 


CANZA ”., n ”_r 


Con i quantificatori "+, "*° e "? potremmo pensare di avere 
soddisfatto le esigenze più complesse riguardanti le ripetizioni di 
caratteri o di espressioni. 

Ovviamente non è così. 

Pensiamo, per esempio, ai prefissi telefonici italiani: esistono due 
prefissi di due cifre (02 e 06, rispettivamente per Milano e Roma), poi ne 
esistono ventotto di tre cifre, circa un paio di centinaia (per l'esattezza 
duecentouno) di quattro cifre e, infine, esistono i prefissi degli operatori 
mobili (iniziano tutti per 3 e sono in numero indefinito e sempre 
crescente, anche grazie al fatto che in Italia ci sono più cellulari pro 
capite che non libri). 


Sappiamo già come specificare una cifra in una regex: 
indifferentemente “\d" o "[0-9y". Sappiamo anche come indicare zero, una 
o un numero indefinito di occorrenze di un'espressione. Qui però 
dobbiamo dire alla regex che ci possono essere due, tre o quattro cifre, 
non di più e non di meno. 

Lo possiamo fare? Certo, con il quantificatore ‘{}" (le parentesi graffe) 
che ci permette di indicare un numero o un determinato intervallo di 
ripetizioni. 

Se all'interno delle parentesi graffe inseriamo un solo numero (per 
esempio ‘{3}"), allora stiamo definendo il numero esatto di ripetizioni; se 
inseriamo due numeri separati da una virgola, stiamo indicando un 
intervallo, per esempio ‘{2,4}). 

Con il nostro nuovo strumento, proviamo a scrivere una regex che 
evidenzi tutti (e solo) i prefissi corretti. 

Testo: 


0321-4421233 
4-324234 
45553-1231231 
06-234234 
02-122345 
02421-124124 
0332-012312 
335-23234 


Regex: 
A\d{2,4}\b 
Risultato: 


0321-4421233 
4-324234 
45553-1231231 
06-234234 
02-122345 
02421-124124 
0332-012312 
335-23234 


Sembra funzionare, siamo infatti riusciti a evidenziare solo i prefissi 
composti da due, tre o quattro cifre. 

Proviamo un esempio diverso e altrettanto significativo: il controllo 
del codice fiscale. 

Testo: 


BREMRC64P23L234Q 
BREMRC64P23L2342 
BREMR064P23L2340 
BREMRC6P23L234Q 
BREMRC64P23L2344Q 


Regex: 
"[A-Z]{6Nd{2}[A-Z]\4{2}[A-Z]\d{3}[A-Z]$ 
Risultato: 


BREMRC64P23L2340Q 
BREMRC64P23L2342 
BREMR064P23L234Q 
BREMRC6P23L2340 
BREMRC64P23L2344Q 


La regex è solo apparentemente complessa ma, se la analizziamo in 


dettaglio, ci rendiamo conto che non è così. 





È naturalmente possibile che il codice fiscale sia formalmente 
corretto, ma che non lo sia dal punto di vista semantico (per esempio, 
l'ultimo carattere è un checksum che deve essere calcolato con un 
algoritmo abbastanza complesso che si basa sui quindici caratteri 


precedenti). 


NOTA Il checksum è una forma di ridondanza in cui un bit, un 
byte, un carattere o comunque una parte del valore viene introdotta 


con l'unico scopo di stabilire se il resto del valore è corretto. 


Dobbiamo capire che le regex non si sostituiscono alla 
programmazione vera e propria, ma costituiscono un valido aiuto al fine 
di evitare noiosi controlli. È molto più facile verificare un codice fiscale 
se abbiamo la certezza di avere almeno le lettere e le cifre nelle posizioni 


corrette. 


NOTA Per i più curiosi, l'algoritmo di calcolo del codice fiscale è 


descritto sul sito dell'Agenzia delle Entrate al seguente indirizzo: 
http://www.agenziaentrate.it/ilwwcm/connect/Nsi/Servizi/Codice+fiscale+- 


+Tessera+Sanitaria/Codice+fiscale/NSI+Informazioni+sulla+codificazione+delle+pers 
one+fisiche. NB. Diciamo pure che l'indirizzo rispetta la “grazia” 


dell'algoritmo. 


A proposito delle ripetizioni, ci rimane solo da accennare agli intervalli 
aperti. 

Abbiamo detto che il quantificatore “{mn}" definisce un intervallo 
preciso di ripetizioni di espressioni, dove “n° deve essere un numero 
maggiore di “m’ (in realtà può anche essere uguale a “n° ma a quel punto 
è sufficiente la forma contratta "{m}°). Ma se per ipotesi non 
conoscessimo il limite massimo di occorrenze? Certo, potremmo 
esagerare inserendo un numero molto grande, ma questo ci lascerebbe 


quella sgradevole sensazione di non aver fatto le cose nel modo migliore. 


Per esaudire questa possibilità esiste la forma aperta del 
quantificatore: “{n}". In questo modo viene specificato il numero minimo 
ma non il numero massimo, che a questo punto può essere grande a 
piacere. 

Vediamo nell'esempio seguente come estrarre da una lista tutti i 
numeri composti da almeno tre cifre. 

Testo: 


0 

666 

23 9 1964 
1234567890123456789012345678901234567890 
44 


Regex: 
\b\d{3,}\b 
Risultato: 


0 
666 
23 9 1964 
1234567890123456789012345678901234567890 
44 
NOTA 1 più attenti avranno probabilmente intuito che l'intervallo 


aperto ‘(0}” equivale al quantificatore * (asterisco) mentre ‘{1}” 


equivale a “+”. 


Ingordigia o pigrizia? 
Nel capitolo precedente abbiamo visto in un esempio come 
evidenziare il tag "<-HTML>' all'inizio di un testo HTML. 
Testo: 


<HTML> 

<P>Qui non potrei usare <HTML> o </HTML>, ma lo uso lo 
stesso solo per questo esempio</P> 

</HATML> 


Regex: 
\A<HTML> 
Risultato: 


<HTML> 

<P>Qui non potrei usare <HTML> o </HTML>, ma lo uso lo 
stesso solo per questo esempio</P> 

</HATML> 


Forse adesso possiamo usare il nostro quantificatore ‘+’ per 
evidenziare tutti i tag in un colpo solo. Vediamo se ci riusciamo. 
Testo: 


<HTML> 

<P>Qui non potrei usare <HTML> o </HTML>, ma lo uso lo 
stesso solo per questo esempio</P> 

</HATML> 


Regex: 
<.t> 
Risultato: 


<HTML> 

<P>Qui non potrei usare <HTML> o </HTML>, ma lo uso lo stesso solo per questo 
esempio</P> 

</HTML> 


Uhm... non è successo quello che pensavamo: è stato evidenziato 
tutto il testo. 

Come mai? 

Questo è dovuto semplicemente alla proverbiale ingordigia dei 
quantificatori delle regular expression. Vediamo cosa succede all'interno 
del motore (in inglese engine) di controllo delle regex. 

La prima parte della nostra espressione, il carattere “-", è subito 
soddisfatta dall'inizio del testo. 

Subito dopo incontriamo l'espressione “+ che indica la ripetizione a 
volontà di qualsiasi carattere. In questo modo il motore continua a 
consumare fino alla fine tutti i caratteri del testo. 


Solo a questo punto, poiché la nostra regex ha una terza e ultima parte 
(il carattere “=’) il motore torna sui propri passi (in inglese backtrack) per 
cercare di soddisfare anche questa condizione e vi riesce subito grazie 


all'ultimo carattere del testo. 


NOTA In realtà il motore avrebbe potuto tornare sui propri passi 
ben più a lungo. Non trovando il carattere desiderato “>” sarebbe 
tornato, prima di fallire, addirittura fino al carattere successivo 


alla lettera "#” del primo “<HTML>". Infatti il quantificatore *+ 


richiede almeno una ripetizione dell'espressione che lo precede. 


Possiamo correggere, o meglio, modificare questo comportamento? 

Sì, in almeno due modi. Il primo, più semplice, è quello impigrire la 
normale ingordigia di un quantificatore. Per fare ciò dobbiamo inserire 
dopo il quantificatore il modificatore “?” (punto interrogativo). 

Vediamo la nuova versione della nostra regex. 

Testo: 


<HTML> 

<P>Qui non potrei usare <HTML> o </HTML>, ma lo uso lo 
stesso solo per questo esempio</P> 

</HTML> 


Regex: 
<+?> 
Risultato: 


<HTML> 

<P>Qui non potrei usare <ATML> o </HTML>, ma lo uso lo 
stesso solo per questo esempio</P> 

</HTML> 


NOTA Non dobbiamo confondere il significato del ?” posto dopo 
un quantificatore con il °?° posto dopo un'espressione: nel primo 
caso funge da modificatore (tramutando l'ingordigia in pigrizia) 


mentre nel secondo agisce direttamente come quantificatore 
(ripetizione di zero o una volta). 


Questa modalità però non è molto efficiente, perché obbliga 
comunque il motore a tornare sui propri passi quando il quantificatore 


pigro deve essere esteso per raggiungere il carattere ">" successivo. 


NOTA In caso di ingordigia, il backtrack avviene all'indietro, 
mentre in caso di pigrizia avviene in avanti. Nonostante questo, si 
tratta lo stesso di un ‘tornare sui propri passi’, per cui lo 


chiamiamo ancora backtrack. 


Molto meglio utilizzare il secondo modo, lasciando che il 
quantificatore “+ sia ingordo ma togliendo il carattere ">" tra quelli 
cercati. 

Vediamo la versione più efficiente della nostra regex. 

Testo: 


<HTML> 

<P>Qui non potrei usare <HTML> o </HTML>, ma lo uso lo 
stesso solo per questo esempio</P> 

</HATML> 


Regex: 
<[1>]+> 
Risultato: 


<HTML> 

<P>Qui non potrei usare <ATML> o </HTML>, ma lo uso lo 
stesso solo per questo esempio</P> 

</HTML> 


NOTA Ingordigia e pigrizia sono la traduzione letterale dei 
termini inglesi ’greediness’ e ’laziness’, usati spesso nelle 
istruzioni in lingua anglosassone per definire questi concetti nelle 


regex. 


Conclusioni 


In questo capitolo abbiamo imparato a usare i quantificatori. 

Il quantificatore “+° indica la ripetizione di una o più volte 
dell'espressione precedente. 

Il quantificatore "** indica la ripetizione di zero o più volte 
dell'espressione precedente. 

Il quantificatore ‘?° indica la ripetizione di zero o una volta 
dell'espressione precedente. 

I quantificatori “{}" indicano la ripetizione di un numero ‘“{n}" o di un 
intervallo preciso “{nm}' di volte dell'espressione che li precede. 

Abbiamo anche affrontato il concetto di ingordigia delle regex e di 
come trasformarla in pigrizia con il modificatore ‘?”. 


Capitolo 11 


Gruppi e alternative: (...) e | 


Nel campo della programmazione il concetto di blocco di istruzioni è 
basilare: il corpo di un if, di una funzione, di un metodo sono blocchi, 
costituiti da un insieme di istruzioni. 

Anche nelle regex possiamo raggruppare tra di loro diverse 


espressioni in modo da ottenere risultati altrimenti impossibili. 


Gruppo di espressioni: (...) 

Abbiamo appena imparato a usare i quantificatori, ma già potrebbe 
esserci venuto in mente qualche dubbio. Per esempio, come possiamo 
applicare un quantificatore a due caratteri consecutivi? 

Proviamo a cercare una o più ripetizioni della stringa “xy”. 

L'espressione “xy+’ fa sì che solo la ‘y sia oggetto del quantificatore 
"+. Infatti, nell'esempio seguente, la seconda stringa individuata, ‘xyyy, 
rappresenta un errore. 

Testo: 


bc + xy + zz 


fo + xxyyy 
XyXy 


Regex: 
Xy+t 
Risultato: 


bc + xy + Zz 
fo + XxXyyy 


NOTA Esiste anche un altro problema, più subdolo e nascosto: 
l'ultima riga, ‘xyxy’, è evidenziata dalla stringa regex ‘xy+” che la 
considera come due diverse occorrenze affiancate; ma dal punto di 
vista logico e anche secondo il nostro desiderio, dovrebbe essere 
individuata come una sola occorrenza costituita dalla ripetizione 


della stringa ‘xy. 


L'espressione ‘x+y+’ invece non otterrebbe il risultato sperato, perché 
cercherebbe la ripetizione della stringa "x° seguita dalla ripetizione della 
stringa ‘y”. 

Nell'esempio seguente, la seconda stringa evidenziata, ‘xxyyy, 
rappresenta un errore. 


Testo: 


bc + xy + zz 


fg + xxyyy 
XyXy 


Regex: 
x+y+ 
Risultato: 


bc + xy + Zz 

fo + XXyyY 

xyXy 
NOTA Anche in questo esempio c'è l'errore, non immediatamente 
percepibile, della doppia occorrenza di “xy nell'ultima stringa 


evidenziata. 


Come possiamo risolvere il problema? Semplice, usando i gruppi di 
espressioni realizzati tramite le parentesi tonde, ‘()”. 
Vediamo dunque come possiamo cercare la ripetizione di ‘xy. 


Testo: 


bc + xy + zz 
fo + xxyyy 
XyXy 


Regex: 
(xy)+ 
Risultato: 


bc + xy + Zz 
fg + xxyyy 
PV. 9/ 


Questa volta la terza stringa evidenziata ‘’xyxy", costituisce, 


correttamente, una sola occorrenza nella nostra ricerca. 


Riferimenti all'indietro 


Il titolo di questo paragrafo è una traduzione, più o meno letterale, del 
termine inglese backreference. Ma in cosa consiste questo riferimento 
all'indietro? 

Quando collochiamo più espressioni semplici fra due parentesi tonde, 
creiamo un gruppo, il quale può essere riutilizzato all'interno della stessa 
ricerca oppure per effettuare una sostituzione. 

Vediamo come possiamo usare la backreference per una ricerca 
complessa. 

Nell'esempio seguente proviamo a cercare tutte le parole di quattro 
lettere che si possono leggere anche al contrario. 

Testo: 
anna va alla fontana, con otto vasi. 

Regex: 

\b(\w(\w)\2\1\b 

Risultato: 


anna va alla fontana, con otto vasi. 


NOTA Per gli appassionati di enigmistica (ma anche per gli 


altri), queste parole si chiamano palindrome. 


Come funziona la regex? Analizziamola in dettaglio come abbiamo già 


fatto in precedenza con gli esempi più complessi: 


ancoraggio per il bordo di una parola; 
(\w) |un carattere raggruppato per la backreference 1; 
(\w) |un carattere raggruppato per la backreference 2; 


M ripetizione del gruppo 1; 
ancoraggio per il bordo di una parola. 


In questo modo siamo riusciti a evidenziare, fra le parole di quattro 


\b 





ripetizione del gruppo 2; 


lettere, unicamente quelle che hanno le ultime due lettere uguali alle 


prime, ma in ordine inverso. 


NOTA Forse qualcuno si starà chiedendo se esiste o meno una 
regular expression in grado di trovare tutte le parole palindrome di 
lunghezza arbitraria. Purtroppo la risposta a questa domanda è 
negativa. Dovremo utilizzare una regex diversa per ogni lunghezza 
desiderata. Per esempio, per i palindromi di cinque lettere, occorre 


utilizzare la seguente espressione: ‘ib(\w(\w)\w\2\1\b 


Proviamo ora a usare una backreference per effettuare un'interessante 
sostituzione. 

Immaginiamo di avere un file contenente un elenco di cognomi e di 
nomi divisi da una virgola e di volerli invertire, sostituendo inoltre la 
virgola con uno spazio. 

Testo: 


Beri,Marco 
Bianchi,Massimo 
De Rossi,Luca 


Bucci,Beppe 
Verdi,Anton Giulio 


Regex: 
MI .1+).(2.1+)$ 
Risultato: 


Beri,Marco 
Bianchi,Massimo 
De Rossi,Luca 
Bucci,Beppe 

Verdi, Anton Giulio 


Regex sostituzione: 
\2\ 


Risultato sostituzione: 


Marco Beri 
Massimo Bianchi 
Luca De Rossi 
Beppe Bucci 
Anton Giulio Verdi 


La prima regex di ricerca individua semplicemente due gruppi di 
lettere divisi dalla virgola, mentre la regex di sostituzione inverte questi 
due gruppi separandoli con uno spazio. 

Immaginiamo un file di testo contenente colonne di dati esportate da 
un foglio elettronico; dobbiamo reimportare questi dati in un database. 
Esistono strumenti in grado di caricare rapidamente una grande mole di 
dati in una tabella, ma normalmente richiedono di operare su file già 
‘condizionati’, dove le colonne di dati si trovano al posto giusto. 

La backreference può essere utilissima in questi casi, per riorganizzare 
in poco tempo le colonne nell'ordine preferito. Ancora meglio se queste 
colonne sono separate da un carattere come la virgola, che può anche 
essere contenuta in uno dei campi di dati (spesso un campo per indirizzi 
può contenere la virgola). Nel capitolo dedicato agli esempi vedremo una 


complessa espressione che ci permetterà di risolvere questo problema. 


NOTA Chiaramente in un caso come il precedente i campi che 
possono contenere il carattere separatore sono a loro volta 


UTI 


delimitati da due caratteri speciali, normalmente i doppi apici, 


Gruppi con nome: (?P<...>... 


Come abbiamo senza dubbio intuito, la backreference è uno 
strumento molto utile e versatile, soprattutto in fase di sostituzione. 

Le regular expression che la usano possono però rischiare di diventare 
molto complesse e di conseguenza di difficile interpretazione da persone 
diverse dal loro autore (ma, dopo qualche mese, anche da lui stesso). 

Per questo motivo, alcuni motori di regex hanno introdotto una 
sintassi per dare un nome che si sostituisca alla numerazione di default 
dei gruppi. 

Il primo a introdurre questa sintassi è stato Python che ha, in qualche 
modo, tracciato la strada con questa sintassi: 

(?P<nome>espressione) 

Una volta assegnato un nome al gruppo di espressioni, possiamo 
riutilizzarlo con la seguente sintassi: 
(?P=nome) 

Oppure possiamo riutilizzarlo all'interno della regex di sostituzione 
con questa sintassi: 

\g<nome> 
Rivediamo le due regex che abbiamo usato per invertire il nome e il 


cognome in uno degli esempi precedenti: 


M[1+)(1".14$ 
\1\2 


E adesso riscriviamo le stesse due regex utilizzando però due gruppi 


con nome: 


A(?P<cognome>["*,]+).(?P<nome>["*,]+)$ 
\g<nome> \g<cognome> 


Sicuramente, a colpo d'occhio, in quest'ultima versione risultano 
molto più leggibili e mnemoniche rispetto alla versione precedente. 
Altri motori hanno poi seguito i passi del motore delle regex di 


Python, mantenendo la stessa sintassi, chiara e logica. 


NOTA Quando è stata la volta di .NET, come purtroppo accade 
troppo spesso, i programmatori Microsoft hanno preferito usare 
una sintassi differente, che non è stata adottata da nessun altro 
motore di regex: ’(?<nome>espressione). Come possiamo vedere, 
hanno scelto di non usare la "P’ che precede il punto interrogativo. 
Inoltre, per distinguersi ulteriormente, hanno aggiunto una seconda 


possibile sintassi: (?'nome'espressione)'. 


Sfortunatamente Regex Coach non è implementato con un motore in 
grado di supportare questa sintassi; pertanto, per utilizzare questa 
caratteristica, dobbiamo usare uno dei motori che abbiamo appena 


elencato. Vari capitoli di questo libro sono dedicati a loro. 


Gruppo passivo: (?: ) 

La backreference è uno strumento molto potente che, come spesso 
accade, richiede una notevole mole di risorse. Nel caso del motore delle 
regex le risorse in questione sono il tempo e la memoria. 

Per questo motivo dovremmo usare la backreference solo quando è 
assolutamente necessaria; in caso contrario rischieremmo di allungare 
inutilmente i tempi di esecuzione della nostra regex. Senza dubbio 
esistono situazioni in cui può essere necessario usare il raggruppamento 
di espressioni, ma non la conseguente backreference. In questi casi 
particolari possiamo usare il cosiddetto gruppo passivo: "(?:)”. 


Rivediamo l'esempio della regex in cui cercavamo la ripetizione di ‘xy. 


Proviamo a cambiare forma. 
Testo: 


bc + xy + zz 
fo + xxyyy 
XY XY 


Regex: 
(P:xy)+ 
Risultato: 


bc + xy + Zz 
fg + xxyyy 
SS) 


Il risultato finale non è cambiato, solo che questa volta non abbiamo 
impegnato inutilmente il motore delle regular expression nella gestione 


della backreference. 


Alternativa: | 


Molto spesso, soprattutto quando dobbiamo cercare o sostituire delle 
stringhe usando i gruppi, nasce l'esigenza di specificare più regex che 
devono però essere soddisfatte in alternativa tra loro. 

Inutile dire che anche questo caso può essere gestito con un apposito 
carattere speciale: "1" (la barra verticale, in inglese pipe). 

Nel prossimo esempio vogliamo individuare in un elenco tutti i nomi 
di file che rappresentano file di codice sorgente Python (ovvero con 
estensione “.py ) o PHP (con estensione ‘ php). 


Testo: 


file 1.py 
file2.doc 
file3.txt 
file4.pyc 
file5.php 
file6.java 


Regex: 


\.py|\.php 
Risultato: 


file1.py 
file2.doc 
file3.txt 
file4.pyc 
file5.php 
file6.java 


Le estensioni dei due nomi ‘filet.py’ e ‘file5.php’ vengono correttamente 
individuate, ma lo è anche quella di ’file4pye che però non stavamo 
cercando. Proviamo allora a specificare in fondo alla nostra espressione 
il codice di fine riga "$°. 

Testo: 


filel.py 
file2.doc 
file3.txt 
file4.pyc 
file5.php 
file6.java 


Regex: 
\.py!\php$ 
Risultato: 


file1.py 
file2.doc 
file3.txt 
file4.pyc 
file5.php 
file6.java 


Non è cambiato nulla. Come mai? 

Il problema sta nell'ordine di precedenza degli operatori nelle regex. 
L'operatore "!" ha la precedenza su tutti gli altri operatori, per cui, in 
mancanza di raggruppamenti, chiede al motore della regex di cercare 


quello che sta alla sua sinistra oppure quello che sta alla sua destra. 


Nel caso della regex ‘\py{\php$" gli stiamo chiedendo di cercare la 
stringa “py oppure la stringa "php presente (ma solo questa seconda) in 
fondo alla riga. Se vogliamo che vengano individuate entrambe le 
estensioni quando si trovano in fondo alla riga, abbiamo due possibilità. 
La prima, meno elegante, consiste nel ripetere il simbolo di fine riga "$° 
in entrambe le espressioni. 

Testo: 


file 1.py 
file2.doc 
file3.txt 
file4.pyc 
file5.php 
file6.java 


Regex: 
\.py$|\.php$ 
Risultato: 


file1.py 
file2.doc 
file3.txt 
file4.pyc 
file5.php 
file6.java 


La seconda, più compatta ed elegante, permette invece usare il 
raggruppamento ‘() per le estensioni, estraendo dal gruppo le parti 
comuni (il punto e il codice di fine riga). 

Testo: 


file 1.py 
file2.doc 
file3.txt 
file4.pyc 
file5.php 
file6.java 


Regex: 
\(?:py{php)$ 
Risultato: 


filel.py 
file2.doc 
file3.txt 
file4.pyc 
file5.php 
file6.java 


NOTA Osserviamo il gruppo passivo ‘:° che abbiamo utilizzato 


per non appesantire inutilmente il lavoro del motore delle regex. 


Possiamo anche specificare più alternative, indicando più caratteri ‘!”. 
Testo: 


file1.py 
file2.doc 
file3.txt 
file4.pyc 
file5.php 
file6.java 


Regex: 
\(?:pyphpijava)$ 
Risultato: 


file1.py 
file2.doc 
file3.txt 
file4.pyc 
file5.php 
file6.java 


A questo punto, se volessimo creare una regex che individui non solo 
l'estensione ma l'intero nome dei file che stiamo cercando, come 
dovremmo fare? In questo modo. 

Testo: 


file 1.py 
file2.doc 
file3.txt 
file4.pyc 
file5.php 
file6.java 


Regex: 


A[ATA.(?:pyiphpijava)$ 
Risultato: 


filel.py 
file2.doc 
file3.txt 
file4.pyc 
file5.php 
file6.java 


NOTA Quando usiamo il carattere speciale jolly (il punto) 


all'interno di un set T]°, possiamo anche evitare di anteporgli il 


backslash. 


Conclusioni 

In questo capitolo abbiamo visto come possiamo raggruppare tra loro 
le espressioni semplici grazie all'impiego delle parentesi tonde ‘()°. 

Quindi abbiamo scoperto che i gruppi di espressioni possono essere 
riutilizzati con la backreference ‘“\1°, “\2" e così via. 

Se ci servono i gruppi ma non la conseguente backreference, 
possiamo usare il raggruppamento passivo ‘(?:)”. 

Nel caso in cui ci serva una sola fra più stringhe alternative, possiamo 


usare il carattere speciale "'” (barra verticale o pipe). 


Capitolo 12 


Unicode e ASCII: \u e \x 


La storia di Unicode è molto più recente rispetto a quella delle regex, 
ma, ciononostante, con quello che Internet e la globalizzazione 
rappresentano, è indispensabile conoscerne almeno i rudimenti. 

Quando produciamo un'entità informatica (un programma, una 
pagina web, un documento, un messaggio di posta elettronica) se 
vogliamo sperare che sia leggibile anche da qualcuno che sta dall'altra 
parte del mondo, allora dovremmo conoscere come funziona Unicode. 

Senza volerne dare una trattazione esaustiva, vedremo cosa 
rappresenta a grandi linee lo standard Unicode e come le regex lo hanno 
adottato. 


Unicode 


La definizione più semplice di Unicode è la seguente: è uno standard 
internazionale per rendere rappresentabile da un computer ogni 
carattere e ogni simbolo in qualunque scrittura esistente. 

Probabilmente molti pensano che per ottenere questo nobile scopo lo 
standard Unicode non abbia fatto altro che utilizzare per ogni carattere 
due byte invece che l'usuale singolo byte. 

Questo è, purtroppo, del tutto inesatto: con due byte si potrebbero 
definire solo 65.536 caratteri distinti, mentre l'ultima versione dello 
standard Unicode, la 5.0 del luglio 2006, ne definisce ben 99.024. 


Un altro importante concetto che riguarda Unicode è l'encoding 
(codifica). Unicode stabilisce l'elenco, la legenda di tutti i grafemi. Il 
grafema è l'idea base di lettera. Esiste il grafema della lettera “A”, il 


grafema della "B’ e il grafema della ‘a’. 


NOTA Il grafema definisce il concetto di lettera ma non la 
modalità con cui viene rappresentata. La “A”, la “A” o la A” 
(rispettivamente la lettera A maiuscola in grassetto, in corsivo e 
sottolineata) sono diverse facce dello stesso grafema. La ‘a’ 


minuscola invece è un grafema diverso. 


Il codice Unicode del grafema corrispondente alla lettera "A" è 0041. 
Quello della lettera "B" è 0042. Quello della lettera “a” è 0061. Ma poi, 
come vengono rappresentati in un computer tutti questi numeri ideali di 
grafemi? Tramite un encoding. Esistono numerosi encoding che 
traducono i grafemi in una serie di byte. Proprio per questo è 
importantissimo capire che, senza sapere quale encoding è stato 
utilizzato per la conversione in byte, non possiamo interpretare con 
assoluta certezza una normale stringa. 


NOTA Come abbiamo affermato all'inizio di questo capitolo, non 
volevamo dare una trattazione esaustiva e crediamo di aver 
mantenuto questa promessa. Chi intendesse approfondire questo 
importante aspetto dell'informatica può visitare il sito web 


http://www.unicode.org. 


Un carattere Unicode: \u e \U 


Non tutti i motori di regex permettono di inserire un codice Unicode 
in un'espressione, ma quelli che lo fanno normalmente aderiscono alla 
modalità suggerita dal comitato tecnico che definisce lo standard 


Unicode. Se vogliamo definire un code point a 4 cifre possiamo usare ‘\u" 


mentre se vogliamo utilizzare un code point a 8 cifre possiamo usare ‘“\U. 
Per la lettera “A” possiamo quindi usare l'espressione ‘\u0041", mentre per 


il grafema ‘lettera peep in alfabeto Shaviano” dobbiamo usare 
"\U00010450”. 


NOTA L'alfabeto shaviano fu inventato nel 1958 da un certo 
Kingsley Read e si chiama così in onore di Bernard Shaw. 
Quest'ultimo credeva che fosse un notevole spreco di tempo e di 
carta usare l'alfabeto latino per scrivere in inglese e indisse un 
concorso per la scrittura più ergonomica. Il concorso fu vinto da 
Read e il suo alfabeto fu chiamato shaviano. Nella Figura 12.1 sono 
raffigurate le prime dieci consonanti di tale alfabeto, quanto meno 
anomalo. 


Non siamo così eccentrici da pensare che qualcuno debba scrivere 
una regex per cercare una lettera dell'alfabeto shaviano, visto che non è 
mai stato realmente usato nella vita di tutti i giorni. Potrebbe invece 
succedere, in un futuro più o meno remoto, che a qualcuno di noi capiti 
di dover scrivere una regular expression che contenga ideogrammi 


cinesi o indiani: in questo caso ci serviranno le istruzioni “\u" e "\U”. 


NOTA Regex Coach non supporta i comandi ‘iu’ e ‘iu ma 


possiamo vedere gli esempi del paragrafo seguente per capire come 


potremmo usarli in una regex. 


Un carattere ASCII: \x 


I comandi “\u e “\u” non sono implementati in tutti i motori di regex, 
mentre normalmente lo è il corrispondente comando ‘\x" per definire un 
carattere tramite il suo codice ASCII. 

Per cercare la lettera “A” con "\x® potremmo usare la seguente regex. 

Testo: 


Abbiamo imparato a usare \x, poco cambierebbe con \u e 
\U. Anche loro sono seguiti da cifre 
(rispettivamente 4 e 8). 


nd 


SHAVIAN LETTER PEEP 
SHAVIAN LETTER TOT 
SHAVIAN LETTER KICK 
SHAVIAN LETTER FEE 
SHAVIAN LETTER THIGH 
SHAVIAN LETTER SO 
SHAVIAN LETTER SURE 
SHAVIAN LETTER CHURCH 
SHAVIAN LETTER YEA 
SHAVIAN LETTER HUNG 











1 
c 
J 
Ò 
$ 
L 
T 
\ 
Q 


Figura 12.1 Le prime dieci lettere dell'alfabeto Shaviano. 
Regex: 

\x41 
Risultato: 


Abbiamo imparato a usare \x, poco cambierebbe con \u e 

\U. Anche loro sono seguiti da cifre 

(rispettivamente 4 e 8). 
NOTA Regex Coach supporta ‘\x° ma non ‘iu. Se avessimo a 
disposizione un motore diverso che supportasse quest'ultimo, al 
posto della regex ‘\x41" avremmo potuto indifferentemente usare 


anche ‘“\u0041 


In questo momento forse può sfuggirci l'utilità di cercare la “A” con 
una regex come ‘\x41°, ma se ci capiterà di dover cercare un carattere 
speciale all'interno di una stringa composta da caratteri binari non 


leggibili allora forse conoscere ‘"\x" ci tornerà comodo. 


Conclusioni 


In questo capitolo abbiamo accennato al concetto di Unicode e di 
come venga implementato in alcuni motori di regex con i comandi "\U” e 
tre 


Analogamente abbiamo visto il comando "x", che ci permette di 


definire in una regex un carattere tramite il suo codice ASCII. 


Capitolo 13 


Guardati intorno: (?!...), (?=...), (?<!...) e 


(2<=...) 


In questo capitolo affrontiamo probabilmente l'aspetto più esoterico 
delle regular expression: la loro capacità di guardare in avanti o indietro 
prima di decidere se un'espressione è soddisfatta. 

In realtà la definizione originale in inglese è lookaround: “guardati 


intorno”. 


Guarda avanti se diverso: (?!...) 

Arrivati a questo punto abbiamo affrontato la maggior parte degli 
strumenti messi a disposizione delle regular expression, ma ancora 
esistono dei problemi che non saremmo in grado di risolvere. 

Supponiamo, per esempio, di voler sostituire la lettera “c° con la "c° 
(maiuscola) se e solo se quando non è seguita dalla lettera “h°. 

Potremmo credere che la soluzione sia la regex “c[‘h]". Effettivamente 
non siamo del tutto in errore, ma purtroppo questa regular expression ha 
due gravi difetti: 


e selac nonè seguita da nulla non viene soddisfatta; 
o se la "c° è seguita da un carattere diverso da “h° anche 


quest'ultimo farà parte della stringa trovata. 


Vediamo entrambi gli errori in questo esempio. 


Testo: 


chiaro: ci sono casi in cui non funziona. 
Finiamo questa frase con la c 


Regex: 
c[*h] 
Risultato: 


chiaro: ci sono casi in cui non funziona. 
Finiamo questa frase con la c 


Regex sostituzione: 


Risultato sostituzione: 


chiaro: C sono Csi in Ci non funziona. 
Finiamo questa frase Cn la c 


Che disastro! La frase ora è praticamente illeggibile e, minore dei mali 
(ma comunque un errore), non è stata sostituita la “c° finale anche se, a 
tutti gli effetti, non è seguita da una ‘"h°. 

Se potessimo in qualche modo dire alla nostra regex di guardare 
avanti senza “consumare” il carattere seguente saremmo a cavallo. 
Naturalmente esiste il comando che fa per noi: ‘(?_ ”. Possiamo vedere 
come funziona nell'esempio seguente. 


Testo: 


chiaro: ci sono casi in cui non funziona. 
Finiamo questa frase con la c 


Regex: 
c(2!h) 
Risultato: 


chiaro: ci sono casi in cui non funziona. 
Finiamo questa frase con la c 


Regex sostituzione: 


Risultato sostituzione: 


chiaro: Ci sono Casi in Cui non funziona. 
Finiamo questa frase Con la C 


Perfetto! Abbiamo sostituito tutte le lettere “c tranne la prima, l'unica 


seguita da una ‘“h°. 


NOTA I comandi di lookaround sono detti a “dimensione zero” 
perché, pur verificando la corrispondenza con la regex, non 
‘consumano’ alcuna parte della stringa. Nei capitoli dedicati agli 


ancoraggi avevamo già introdotto il concetto di dimensione zero. 


Nell'esempio precedente abbiamo chiesto alla regex di verificare se la 
lettera seguente fosse diversa da quella specificata. Ovviamente al posto 
della singola lettera possiamo anche utilizzare un'espressione complessa. 

Testo: 

A+AB+ABC=X 

Regex: 
A(2BC) 

Risultato: 
A+AB+ABC=X 


Abbiamo trovato tutte le “A” tranne quelle seguite dalla stringa “BC”. 


Guarda avanti se uguale: (?=...) 


Come abbiamo appena imparato, il comando “( )° ci permette di 
verificare se il testo che segue è diverso dall'espressione data. Esiste 
anche il comando simmetrico, che controlla se la stringa seguente è 


uguale all'espressione che specifichiamo: "(?=...))”. 


NOTA In molti linguaggi il test di uguaglianza è dato 


dall'operatore “==" e quello di disuguaglianza da "!=". In questo 


senso i due comandi che abbiamo appena presentato sono 


abbastanza mnemonici. 


” 


Un esempio ci sarà utile per scoprire il funzionamento di "(?=...) 
Testo: 
Io rimarco che mi chiamo marco o mino. 
Regex: 
\bm(?=arcolino) 
Risultato: 
Io rimarco che mi chiamo marco o mino. 
Regex sostituzione: 


M 


Risultato sostituzione: 


Io rimarco che mi chiamo Marco o Mino. 


La regex ha trovato le due “m'’ iniziali di marco’ e “mino” permettendoci 
di renderle maiuscole. In questo caso abbiamo guardato in avanti alla 
ricerca di una delle due possibili stringhe “arco” e ino” usando 
l'operatore di alternativa "!". In precedenza abbiamo imparato che le 
parentesi rappresentano un modo per definire una backreference. È 
importante che ci ricordiamo che le parentesi tonde del comando di 
lookaround non contano come backreference. Per riutilizzare la stringa 
trovata dal comando ‘(?=...)’, dobbiamo usare un'altra coppia di parentesi 
per l'espressione e creare una backreference. In questo esempio la 
stringa cercata guardando in avanti viene poi riutilizzata nella 
sostituzione. 

Testo: 


x44+x +x6 + xA 
Regex: 
x(?=(\d+)) 


Risultato: 


x44 + x + x6 + xA 

Regex sostituzione: 
y\l* 

Risultato sostituzione: 
yV44*44 + x + y6*6 + xA 

In questo esempio abbiamo cercato tutte le “x” seguite da almeno una 
cifra ("\d" rappresenta una cifra e il quantificatore “+ significa "una o 
più). Quindi le abbiamo sostituite con una ‘y° e il gruppo di cifre 


seguente è stato moltiplicato per se stesso grazie alla backreference ‘\1°. 


Guarda indietro: (?<!...) e (2<=...) 


Esistono due comandi simmetrici per cercare stringhe che precedono 
l'espressione che stiamo cercando e verificare se sono uguali o diverse 
da una stringa prefissata. I comandi sono rispettivamente "(?<=..)” e "(? 
<!.). Dobbiamo fare un discorso diverso per il lookbehind (guarda 
indietro). La maggior parte dei motori di regex non permette di cercare 
all'indietro qualcosa di diverso da una stringa di lunghezza fissa. Ecco la 
motivazione: il motore farebbe troppa fatica a capire di quanto tornare 
indietro alla ricerca di una regex complessa, cosa invece piuttosto facile 
con una stringa a lunghezza fissa. Vediamo un paio di esempi per capire 
come possiamo usare queste forme. Nel primo useremo il lookbehind 
alla ricerca di una stringa uguale a quella specificata. 


Testo: 


Ecco alcuni indirizzi URL: http:http://www.google.it 
http://www.slashdot.org. 
Tutti sono preceduti da http://. 


Regex: 
(?<=http://\)[\w]+[\w.]+[\w]+ 
Risultato: 


Ecco alcuni indirizzi URL: http://www.google.it 

http://www.slashdot.org. 

Tutti sono preceduti da http://. 
NOTA In questo caso siamo riusciti a evidenziare tutti gli URL del 
testo. Giustamente non abbiamo evidenziato il punto che segue il 


secondo URL e quello che conclude la frase. 


Nel secondo la ricerca sarà di una stringa diversa da quella prefissata. 
Testo: 
Voglio cercare tutte le parole che non finiscono per o. 
Regex: 
\b\w+(?<!0)\b 
Risultato: 
Voglio cercare tutte le parole che non finiscono per o. 

Nel precedente esempio la semplicità e, allo stesso tempo, la potenza 
delle regular expression sono più evidenti. Possiamo provare a 
immaginare quante righe di codice avremmo dovuto scrivere per 
realizzare un programma che facesse la stessa cosa della semplice regex 
che abbiamo usato: ‘\b\w+(?<!o)b." Per sbizzarrirci possiamo provare a 
usare la backreference nello stesso esempio. 

Testo: 

Voglio raddoppiare tutte le parole che non finiscono per o. 

Regex: 

\b(\w+)(?<!0)\b 

Risultato: 

Voglio raddoppiare tutte le parole che non finiscono per o. 

Regex sostituzione: 

\1\l 


Risultato sostituzione: 


Voglio raddoppiare raddoppiare tutte tutte le le 
parole parole che che non non finiscono per per o. 


Conclusioni 


In questo capitolo abbiamo imparato a scrivere una regex che guardi i 
caratteri che la seguono per individuare una corrispondenza con 
l'espressione che cerchiamo, rispettivamente con ‘(?=..) e “( . Le 
parentesi non costituiscono un riferimento a una backreference, che 
deve essere dichiarata inserendo un'ulteriore coppia di parentesi ‘(?=(...))”. 
Ugualmente possiamo scrivere una regex che guarda i caratteri che la 


precedono con i comandi ‘(?<=...)” e “(?<1..))”. 


Capitolo 14 


Varie: 


\a, \c, \e, \f, \n, \r, \v, \te(?#...) 


Questo capitolo è dedicato a tutti quei comandi che non rientrano 
nelle categorie che abbiamo esaminato finora, anche se non tutti i 
motori li implementano. 

Si tratta per lo più di classi di caratteri di controllo speciali; infine 


vedremo come inserire un commento in una regex. 


Bell: \a 


È probabile che questo comando non sia più usato nella maggior parte 
dei motori di regex, visto che rappresenta il carattere bell (segnale 
acustico), usato in passato per far emettere un suono ai videoterminali. 


A ogni modo lo elenchiamo comunque, per completezza. 


NOTA Nel linguaggio di programmazione C il carattere Bell in 
una stringa è inserito come ‘\a°. La “a” sta proprio per alert 


(allarme) o per audible (udibile). 


Carattere di controllo: \c 


Questo comando ci permette di cercare un carattere di controllo in 


una stringa. Per esempio il carattere di tabulazione è equivalente al 


carattere di controllo CTRL-I quindi è identificabile in una regex come 
ci”. 
Proviamo a cercare con questa sintassi il carattere di tabulazione. 
Testo: 


Nelle parentesi quadre che 
seguono c'è un tab [ ]. 


Regex: 
\ci 
Risultato: 
Nelle parentesi quadre che 
seguono c'è un tab [ ]. 
NOTA Avremmo potuto ottenere lo stesso risultato con ‘*\x09° o, 


come vedremo più avanti, con ‘\t°. 


Carattere di escape: \e 


Il carattere di escape è (tristemente) noto a tutti coloro che hanno 
dovuto, probabilmente in un sistema operativo come MSDOS o Unix, 
generare in qualche modo del testo da inviare a una stampante. 

Si tratta del carattere esadecimale ‘“1B° e infatti, nella remotissima 
ipotesi che ci serva in una regex, possiamo usare indifferentemente “\e" o 


“\x1B°. 


Carattere form feed: \f 


Il carattere di form feed (avanzamento pagina) è un altro di quei 
comandi che permettevano di comandare una stampante inviando 
l'istruzione per saltare alla pagina successiva. 

Il carattere esadecimale corrispondente è “oc” e quindi due istruzioni 


equivalenti a ’\f" possono essere ‘\cc" 0 “\x0C°. 


Caratteri a-capo e ritorno carrello: \n e \r 


Trattiamo insieme i caratteri “\n" e “\r° perché se qualcuno di noi ha 
avuto a che fare con la conversione di file di testo fra sistemi Unix e 
sistemi MSDOS o Microsoft Windows si ricorderà ancora i mal di testa 
dovuti a questa strana coppia. 

Il fatto inspiegabile è che il carattere che indica la fine di una riga in 
Unix è solamente ‘“\n° (codice esadecimale “0A”), mentre in MSDOS o in 
Microsoft Windows sono invece i due caratteri abbinati “\r° (codice 


esadecimale “oD’) e “\n" (codice esadecimale "0A°). 


NOTA Per mettere ulteriormente alla prova la nostra pazienza, 
accenniamo anche al fatto che nei vecchissimi e sconosciuti sistemi 
Daisy il codice di fine riga era ottenuto con la sequenza \nr” e nei 


computer Commodore e Apple II si usava solo \r°. 


Quando trattiamo file di testo di più righe ci conviene senza dubbio 
utilizzare gli ancoraggi di inizio e fine riga "$" (dollaro) e "*’ (accento 
circonflesso) ma, se proprio vogliamo farci del male e a patto di 
conoscere con precisione il formato binario del file, possiamo anche 
usare direttamente “\n° 0 “\r\n®. 

Vediamo un esempio di utilizzo di ‘\n® per trovare tutte le righe che 
terminano con un punto. 

Testo: 


Posso usare \n per capire dove 
finisce una riga. 

Ma sarebbe meglio usare 

il $ dollaro. 


Regex: 
\\n 
Risultato: 


Posso usare \n per capire dove 
finisce una riga. 

Ma sarebbe meglio usare 

il $ dollaro. 


Verifichiamo come possiamo ottenere lo stesso risultato, per di più al 
riparo dal formato binario del testo, usando il "$° (dollaro). 
Testo: 


Posso usare \n per capire dove 
finisce una riga. 

Ma sarebbe meglio usare 

il $ dollaro. 


Regex: 
\.$ 
Risultato: 


Posso usare \n per capire dove 
finisce una riga. 

Ma sarebbe meglio usare 

il $ dollaro. 


Caratteri di tabulazione: \v e \t 


Il carattere di tabulazione verticale “\v” è un altro di quei caratteri usati 
molto tempo fa per comandare l'avanzamento verticale della carta in una 
stampante. Il carattere esadecimale corrispondente è ‘oB” e quindi 
possiamo usare “\cb" o ‘\xoB" per ottenere lo stesso risultato. 

Il carattere di tabulazione orizzontale “\t" è invece molto più comune 
anche al giorno d'oggi. Molti file di testo ottenuti con l'esportazione da 
fogli elettronici contengono dati separati dal cosiddetto tab. Il carattere 
esadecimale corrispondente è “09” e quindi possiamo usare ‘“\ci o ’\xoB" al 
posto di “\t°. 

Rivediamo per conferma l'esempio in cui avevamo utilizzato “\ci°. 

Testo: 


Nelle parentesi quadre che 
seguono c'è un tab [ ]. 


Regex: 
\t 
Risultato: 


Nelle parentesi quadre che 
seguono c'è un tab [ ]. 


Commento: (?#...) 


Tutti dovremmo conoscere l'importanza dei commenti all'interno di 
un codice sorgente. Senza i commenti, chiunque fosse costretto a 
interpretare un frammento di codice sorgente che non ha scritto si 
troverebbe di fronte ad un'impresa non indifferente. A dire la verità, è 
probabile che, in presenza di codice non commentato, a distanza di 
qualche mese anche l'autore incontrerebbe le stesse difficoltà. 

Una regex in linea teorica non dovrebbe essere così complessa da non 
essere interpretabile direttamente, ma può essere utile inserire piccoli 
commenti al suo interno per facilitarne l'interpretazione. 

Per esempio, vediamo una regex abbastanza complessa che ricerca 
delle date all'interno di un testo. 

Testo: 


Sono nato il 23/09/1964 o il 23-9-64. 
Se dico 23/9 non basta. 

Se dico 23/09/1899 nessuno ci crede. 
Se dico 31/02/1964 imbroglio la regex. 


Regex: 


\b(?#giorno)(0?[1-9]![12][0-9]]3[01])[- 
/]}(?#mese)(0?[1-9]{1[012])[-/](?#anno)(19|20)?\d\d\b 


Risultato: 


Sono nato il 23/09/1964 o il 23-9-64. 
Se dico 23/9 non basta. 


Se dico 23/09/1899 nessuno ci crede. 
Se dico 31/02/1964 imbroglio la regex. 


NOTA Nell'esempio la regular expression è molto lunga e quindi è 
spezzata su più righe per motivi di impaginazione. In realtà 


dobbiamo digitarla senza mai andare a capo. 


Abbiamo volutamente inserito una data errata (il 31 febbraio) per 
ricordare che una regex ci può facilitare molto la ricerca di stringhe che 
soddisfino certe caratteristiche, ma non può sostituirsi alla 
programmazione classica. 


Conclusioni 


In questo capitolo abbiamo elencato tutti i comandi particolari, che 
non rientravano nelle categorie definite finora. 

Nella maggior parte dei casi si tratta di comandi che vengono usati 
molto raramente. 


Capitolo 15 


I modificatori: /i, /se /m 


L'ultimo argomento che affrontiamo prima di passare a esaminare 
l'uso delle regex nei vari linguaggi sono i modificatori. 

Questi cosiddetti flag ci permettono di cambiare il comportamento del 
motore delle regex che stiamo usando. 

Normalmente possiamo usare questi flag anche per una parte della 


regex. 


Maiuscole e minuscole uguali: /i 


Per cercare in un testo la presenza del tag "<TITLE>" dovremmo 
utilizzare un'espressione piuttosto elaborata, come la seguente. 
Testo: 


Dobbiamo trovare <TITLE>, <title> 
ma anche <TiTle> e <tITLE>. 


Regex: 
<[T ENIT] UILI[eE]> 
Risultato: 


Dobbiamo trovare <TITLE>, <title> 
ma anche <TiTle> e <tITLE>. 


Sarebbe molto più comodo se potessimo dire al nostro motore di 
ignorare la differenza tra maiuscole e minuscole. 


Questo modo esiste: basta usare il modificatore ‘/i°. 


NOTA Prestiamo attenzione alla barra: non è il backslash ma è la 
barra normale. Questo indica che il modificatore normalmente non 
viene inserito direttamente nella regex. Per esempio nella Figura 


15.1 vediamo come è attivato in Regex Coach. 


Vediamo come la stessa regex può essere scritta molto più 
semplicemente attivando il modificatore ‘/i°. 
Testo: 


Dobbiamo trovare <TITLE>, <title> 
ma anche <TiTle> e <tITLE>. 


Regex: 
<TITLE> 
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Figura15.1 Il modificatore /i attivato in Regex Coach. 
Modificatore: 

li 
Risultato: 


Dobbiamo trovare <TITLE>, <title> 
ma anche <TiTle> e <tITLE>. 


In realtà possiamo attivare il modificatore anche 


all'interno della regex con il comando “(i)”. 


Testo: 


Dobbiamo trovare <TITLE>, <title> 
ma anche <TiTle> e <tITLE>. 


Regex: 
(2i)<TITLE> 
Risultato: 


Dobbiamo trovare <TITLE>, <title> 
ma anche <TiTle> e <tITLE>. 


Per disattivarlo, basta usare 
Testo: 


Dobbiamo trovare <TITLE>, <title> 
ma anche <TiTle> e <tITLE>. 


Regex: 
(?i)<TIT(?-i)LE> 
Risultato: 


Dobbiamo trovare <TITLE>, <title> 
ma anche <TiTle> e <tITLE>. 


“0 


” 


specificandolo 


NOTA Notiamo come in questo ultimo esempio abbiamo 


riattivato il controllo sulle maiuscole e minuscole prima delle 


ultime due lettere “LE” di “<TITLE>". Proprio per questo motivo due 


delle occorrenze non sono state evidenziate. 


È forse superfluo dire che nei due esempi precedenti le parentesi 


tonde non causano alcuna backreference. 


Singola riga: /s 


Il modificatore ‘/s° indica al motore di regex di trattare il testo come 


un'unica riga, anche in presenza di più righe. In questo caso il carattere 


” 


jolly “.’ (punto) è soddisfatto anche dal codice di fine riga. 
Testo: 


Vado a capo ora 
e ricomincio qui. 


Regex: 
(?s)ora.e 
Risultato: 


Vado a capo ora 
e ricomincio qui. 


Abbiamo visto come il jolly sia stato soddisfatto dal carattere di 


“acapo’ inserito appositamente tra le due parole ‘ora’ ed e”. 


NOTA In Regex Coach la modalità singola riga è attivabile come 
indicato nella Figura 15.2. Il riquadro con la m subito a sinistra 
della s indicata dalla freccia attiva la modalità multi-riga, 


spiegata nel prossimo paragrafo. 


Multi-riga: /m 
L'ultimo modificatore che esaminiamo è ‘/m° che attiva la modalità 
multi-riga. 
In questa modalità gli ancoraggi ‘*’ (accento circonflesso) e “$” sono 


ancorati all'inizio e alla fine di ogni riga, piuttosto che all'inizio e alla fine 
di tutto il testo. 


NOTA Nel capitolo dedicato a questi due ancoraggi avevamo 


infatti segnalato di attivare questa modalità. 


$ The Regex Coach 
Fie Agoscrod Hab 
Begue «pression 


Di On Mz Cs Ma 
Tage! stringa 


Vado a capo ora 
e riconincio qui. 


Match iam 12 1017 

Contro | tro |\Trea |Fsepce] Sol {Sto 
Hiohtoht (ore backgioundf 

® selecin 


Scan from 0 Start of stinng:0 Erdot string 


22] ne fee 








Figura 15.2 Il modificatore /s attivato in Regex Coach. 


” 


In pratica, se non attiviamo questa modalità, l'ancoraggio 


corrisponde a “\A" e l'ancoraggio "$" corrisponde a "\Z". 


Conclusioni 


In questo capitolo abbiamo visto come usare i modificatori per 
modificare il comportamento del motore di regex che stiamo usando: ‘/i° 
per evitare che la ricerca distingua fra lettere maiuscole e minuscole, ‘/s° 
e "/m' per considerare il testo rispettivamente su una sola riga o su più 
righe. 

I modificatori possono anche essere attivati o disattivati solo per una 
parte della regex. 

Per esempio possiamo rendere una parte di regex indipendente dalle 
lettere maiuscole o minuscole, con il comando esteso ‘(?i)”. 


” 


Per riattivare il suddetto controllo dobbiamo invece usare ‘(?-i)”. 


Capitolo 16 


Regex in Python 


Con questo capitolo iniziamo a vedere l'uso delle regular expression 
nei linguaggi più diffusi. 
Il primo linguaggio che affrontiamo è Python. 


Python 


La prima domanda delle FAQ (Frequently Asked Question: le 
domande più frequenti) sul sito ufficiale di Python (http://www.python.org) è 
la seguente: "Che cos'è Python?”. 

La risposta è: ‘Python è un linguaggio di programmazione 
interpretato, interattivo e orientato agli oggetti. Incorpora al proprio 
interno moduli, eccezioni, tipizzazione dinamica, tipi di dati di altissimo 
livello e classi. Python combina un'eccezionale potenza con una sintassi 
estremamente chiara. Ha interfacce verso molte chiamate e di sistema, 
oltre che verso diversi ambienti grafici, ed è estendibile in C e in C++. 
Inoltre può essere usato come linguaggio di configurazione e di 
estensione per le applicazioni che richiedono un'interfaccia 
programmabile. Infine Python è portatile: può girare su molte varianti di 
Unix, su Mac e su PC con MS-DOS, Windows, Windows NT e 05/2.” 

A chi dobbiamo una meraviglia del genere? A un geniale signore 
olandese che risponde al nome di Guido Van Rossum. Curiosamente 
Guido non è la traduzione italiana del suo nome, è proprio il suo nome 


originale, in olandese. 


Guido, nel lontano Natale del 1989, invece di trascorrere le vacanze a 
decorare l'albero, decise di scrivere un linguaggio che correggesse la 
maggior parte, se non tutti, i difetti che secondo lui erano presenti negli 
altri linguaggi. 

Per nostra fortuna Guido Van Rossum era, ed è tuttora, un 
grandissimo esperto di linguaggi di programmazione e questo ha fatto sì 
che fin da subito la sua creatura avesse un notevole successo, dapprima 
fra i colleghi del centro di ricerca presso il quale lavorava in quel periodo 
e poi, dopo la pubblicazione su USENET nel febbraio del 1991, in tutto il 
mondo. 

Python può essere utilizzato per applicazioni standalone (che girano 
per un singolo utente su un solo computer), per applicazioni tradizionali 
client-server, per applicazioni web e anche per realizzare giochi; inoltre 
può essere usato facilmente come linguaggio di scripting. 

Esistono perfino due ottimi framework web scritti in Python: Django 
(http://www.djangoproject.com) e Zope (http://www.zope.org). 

Google, che non ha bisogno di presentazioni, utilizza pesantemente 
Python. 


Insomma, non esistono limitazioni all'uso di questo linguaggio. 


Come usare le regex in Python 


In Python esiste un modulo (una libreria) dedicato 
all'implementazione delle regular expression, disponibile all'interno del 
linguaggio. 

Le librerie possono essere importate con l'istruzione import, per cui, 
per avere a disposizione il motore delle regex di Python, è sufficiente che 
nel sorgente digitiamo la seguente riga: 


import re 


Da questo momento in poi possiamo usare nel nostro sorgente tutte le 
istruzioni e possiamo creare gli oggetti che riguardano le regex. 


Vediamo come cercare una stringa. 


NOTA Si tratta del problema che abbiamo proposto alla fine del 
primo capitolo: trovare all'interno di una frase tutte le parole di 
otto lettere che contengono la sottostringa "tex’, ma non all'inizio e 
nemmeno alla fine di essa. 

>>> import re 

>>> c = re.compile(r"\b(?=\w{8}\b)\w{1,4}tex\w*") 

>>> s = "texwille ritexwil ritexto 12tex345" 

>>> c.findall(s) 

['ritexwil', '12tex345'] 


NOTA La stringa >>> è il prompt dei comandi di Python. Essendo 
un linguaggio interpretato non richiede il normale (e noioso) 
processo di compilazione per provare interattivamente piccole 


porzioni di codice. Nel prossimo paragrafo vedremo il significato 


della ’° che precede la stringa della regex. 


Vediamo ora come modificare una stringa: 
>>> import re 


>>> c = re.compile(r"(bianco|rosso)") 


un 


>>> c.sub(r"colore \1", "maglione rosso") 
‘maglione colore rosso' 


>>> 


NOTA Per richiamare la stringa relativa al colore, abbiamo usato 
la backreference. 


Per utilizzare i modificatori in Python è sufficiente usare in fase di 


creazione della regex una delle seguenti costanti. 


DOTALL si i 
2 i ©. | Modalità mono-riga. 





re IGNORECASE sa i i 
di Non distinguere fra le lettere maiuscole e minuscole. 


reLOCALEo |Modalità locale per effettuare ricerche che tengono 
La conto della nazionalità corrente del sistema operativo. 


.MULTILINE È Li 
Modalità multi-riga. 
re.M 


reVERBOSEo |Modalità verbose (prolissa) per scrivere regex più 
as chiare e commentate. 





Vediamo come si può rendere case insensitive il precedente esempio: 


>>> import re 

>>> c = re.compile(r"(biancolrosso)", re.I) 
>>> c.sub(r"colore \1", "maglione BIANCO") 
‘maglione colore BIANCO' 


>>> 


Particolarità del motore regex Python 


Il motore di regex di Python è stato il primo a offrire la funzionalità 
dei gruppi con nome. Esaminiamo la sintassi di questo comando: ‘(? 
P<..>..). In questo modo è possibile dare il nome a un gruppo da 
utilizzare poi come backreference. Per vedere l'utilità di questa 
innovazione osserviamo due frammenti di codice che svolgono la stessa 
operazione (invertono il nome e il cognome in una lista di valori separati 
da una virgola). 

Esempio di gruppi senza nomi: 


>>> import re 

>>> a = """Rossi, Mario 
Bianchi, Pietro 

Verdi, Luigi""" 

>>> c = re.compile("*([*,]+),([%,]+)$", re.M) 
>>> print c.sub(r"\2 \1", a) 

Mario Rossi 

Pietro Bianchi 

Luigi Verdi 


>>> 


Esempio di gruppi con nomi: 


>>> import re 

>>> a = """Rossi, Mario 

Bianchi, Pietro 

Verdi, Luigi""" 

>>> C=|\ 
re.compile("*(?P<cognome>[*,]+),(?P<nome>[*,]+)$", 
re.M) 

>>> print c.sub(r"\g<nome> \g<cognome>", a) 
Mario Rossi 

Pietro Bianchi 

Luigi Verdi 


>>> 


Per maggior chiarezza abbiamo evidenziato le parti di codice differenti. 
È facile comprendere come, soprattutto a distanza di qualche tempo, la 
regex "\g<nome> \g<cognome>" sia molto più comprensibile rispetto a “\2 \1°. 
Prova ne è che molti altri motori hanno ormai adottato questa 
estensione di Python. 

Come abbiamo visto in precedenza (anche in questi ultimi due 
esempi), spesso quando si utilizzano le regex è necessario utilizzare il 
backslash. Ma spesso il backslash ha un significato particolare nella 
gestione delle stringhe nei linguaggi di programmazione e, se questo 
accade, siamo costretti a raddoppiare ogni sua occorrenza. Nel caso di 
una regex che deve cercare proprio questo carattere speciale dovremmo 
scriverla in questo modo: “\" (sì, ripetuto ben quattro volte). Anche 
nelle stringhe di Python il backslash ha un significato particolare ma, 
per fortuna, esiste il modo di evitare questa inflazione di caratteri 
speciali. In questo linguaggio, le due stringhe seguenti sono equivalenti: 


>>> "\2\\1" 
>>>r"\2\1" 


Quella piccola “r° sta per raw (non elaborata) e indica a Python di non 
considerare ‘speciale’ il backslash. Con le stringhe raw non possiamo più 
usare il delimitatore di stringa all'interno della stringa, perché non 
abbiamo più modo di renderlo normale con il backslash. In questo caso 


possiamo usare il triplo doppio apice. La stringa seguente è del tutto 


lecita in Python (contiene un backslash, un doppio apice, un singolo 
apice e persino un carattere di “a-capo'): 


>>> S= r" " "n" ' 
mn 


NOTA Per approfondire questo e altri aspetti delle regex in Python 
è possibile visitare la documentazione ufficiale di Python per il 


modulo: http://docs.python.org/lib/module-re.html. 


Conclusioni 


In questo capitolo abbiamo illustrato l'uso delle regular expression nel 


linguaggio di programmazione Python. 


Capitolo 17 


Regex in Ruby 


In questo capitolo vedremo come utilizzare le regular expression nel 


linguaggio di programmazione Ruby. 


Ruby 


Ruby in inglese significa rubino. Questo nome lascia intuire quali 
siano state le intenzioni del suo ideatore, Yukihiro ’matz’ Matsumoto, 
quando decise di concepirlo e realizzarlo nel 1993 per poi renderlo 
pubblico nel dicembre del 1994. 

Yukihiro ha preso il meglio dai linguaggi di cui era esperto nonché 
appassionato, tra cui Perl, Smalltalk, Eiffel, Ada e Lisp, per creare il 


proprio linguaggio di programmazione ideale. 


NOTA In realtà dietro il nome Ruby c'è anche un sottile gioco di 
parole con Perl (che in origine era Pearl) visto che entrambi sono 


nomi di pietre preziose. 


Come abbiamo fatto per Python, ecco come viene definito Ruby nelle 
FAQ (Frequently Asked Question, le domande più frequenti): “Ruby è un 
semplice e potente linguaggio di programmazione orientato agli oggetti. 
È ottimo per elaborare i testi, come Perl, e ogni cosa è un oggetto, come 
in Smalltalk. Offre blocchi di istruzioni, iteratori, meta-classi e molti altri 
costrutti interessanti. Possiamo usare Ruby per scrivere server, 


sperimentare con i prototipi e per qualunque compito riguardi la 


programmazione. Come linguaggio orientato agli oggetti, Ruby è 


scalabile. Le caratteristiche di Ruby sono: 


o una sintassi semplice; 

L le tipiche caratteristiche dei linguaggi orientati agli oggetti (classi, 
metodi, oggetti e così via); 

° varie caratteristiche speciali come Mix-ins, metodi singleton, 
ridenominazione e altri ancora; 

e  l'overloadingdeglioperatori; 

e la gestione delle eccezioni; 

e. gliiteratorie la closure; 

e la garbage collection; 

o il caricamento dinamico (a seconda dell'architettura); 

° un'elevata trasportabilità (gira su diversi Unix, Windows, DOS, OS 


X, 05/2, Amiga e così via)”. 


Ci pare incredibile che Ruby sia tutto questo? È normale che un oste 
dica sempre che il proprio vino sia il migliore, ma in effetti Ruby è, 
insieme a Python, uno dei migliori linguaggi attualmente in circolazione. 
Data la produttività che deriva dall'uso di Ruby e Python, è quasi 
incomprensibile che questi linguaggi di programmazione non vengano 
adottati più spesso per la realizzazione di nuovi progetti. Pensiamoci 
bene la prossima volta che avremo l'occasione di studiare un nuovo 
linguaggio di programmazione. 

La documentazione nel sito ufficiale di Ruby è all'indirizzo: 


http://www.ruby-lang.org/en/documentation/ 


Come usare le regex in Ruby 


In Ruby le regular expression sono una caratteristica propria del 
linguaggio, ovvero non fanno parte di una libreria o di un modulo da 


importare. Vediamo come cercare una stringa. 


NOTA Si tratta del problema che abbiamo proposto alla fine del 
primo capitolo: trovare all'interno di una frase tutte le parole di 
otto lettere che contengono la sottostringa “tex’, ma non all'inizio e 
nemmeno alla fine di essa. 

irb(main):001:0> s = "texwille ritexwil ritexto & 

12tex345" 

=> "texwille ritexwil ritexto 12tex345" 

irb(main):002:0> s.scan(/\b(?=\w{8}\b)\w{1,4}tex\ & 

w*/) 

=> ["'ritexwil", "12tex345"] 

irb(main):003:0> 
NOTA La stringa ‘irb(main):001:0> è il prompt che compare quando 
utilizziamo Ruby interattivamente. Anche in Ruby, come in Python 
e in tutti gli altri linguaggi interpretati, possiamo provare 
interattivamente piccoli frammenti di codice. La stringa "=>" 

precede i valori restituiti dall'interprete. Il carattere + è 

esclusivamente un'indicazione tipografica per segnalare che la riga 

va a capo solo per esigenze di stampa, anche se in realtà si tratta 


di una sola riga. 


Abbiamo usato il metodo ‘scan’ della stringa ’s’ per recuperare in un 
array tutte le occorrenze individuate (nell'esempio sono due). 
Vediamo ora come modificare una stringa: 


irb(main):001:0> s = "maglione rosso" 
=> "maglione rosso" 

irb(main):002:0> s.sub(/(bianco!rosso)/, & 
"colore \\0") 

=> "maglione colore rosso" 
irb(main):003:0> 


NOTA Abbiamo usato la backreference per richiamare la stringa 


relativa al colore. 


In Ruby possiamo utilizzare i modificatori semplicemente 


aggiungendo nella regex il modificatore dopo l'ultima barra semplice ‘/°. 


Possono essere impiegati i seguenti modificatori. 


Non distinguere fra le lettere maiuscole e minuscole. 


Sostituzione singola (normalmente le sostituzioni sono sempre 


globali) 


Il carattere speciale punto ‘.° corrisponde a ogni carattere, anche 
/m | il ritorno a-capo (gli ancoraggi "*” e "$" rispettano sempre e 
comunque l'inizio e la fine di una riga). 





Vediamo come si può rendere case insensitive il precedente esempio: 


irb(main):001:0> s = "maglione BIANCO" 
=> "maglione BIANCO" 

irb(main):002:0> s.sub(/(bianco!rosso)/i, & 
"colore \\0") 

=> "maglione colore BIANCO" 
irb(main):003:0> 


Particolarità del motore regex Ruby 
Il motore di regex di Ruby fa parte della sintassi del linguaggio. 


Possiamo considerare questo fatto come un indice della capacità del suo 
ideatore Yukihiro “matz’ Matsumoto, oltre che un omaggio all'utilità 
sempreverde delle vetuste regex. 

Nel paragrafo precedente abbiamo già visto che i modificatori sono 
inseriti direttamente nella regex e che la regex stessa è delimitata dalla 
barra semplice ‘/ (slash). Questa caratteristica fa sì che, se all'interno 
della nostra regex dobbiamo usare la barra ‘/°, dobbiamo farla precedere 


dal backslash "\°. 


Vediamo come fare nell'esempio seguente: 


irb(main):001:0> s = "30 / 10 = 3" 
=> "30/10=3" 

irb(main):002:0> s.sub(/V/, "diviso") 
=> "30 diviso 10 = 3" 
irb(main):003:0> 


La regex "/v/" è delimitata dalle due barre semplici iniziale e finale; le 
due barre contengono a loro volta due caratteri: “V°. Il primo è il 
backslash che rende normale il secondo carattere (speciale), la barra 
semplice ‘/°. 

In Ruby esiste inoltre un particolare operatore che ci permette di 
controllare se una stringa corrisponde a una regex. L'operatore è "=-”. 

Riproviamo il primo esempio usando questo operatore: 


irb(main):001:0> s = "texwille ritexwil ritexto 
12tex345" 

=> "texwille ritexwil ritexto 12tex345" 

irb(main):002:0> s => /\b(?=\w{8}\b)\w{1,4}tex\w*/ 

=> 9 


L'operatore "=-" ha restituito il valore “9° che indica che nella nostra 
stringa la regular expression è stata individuata nella nona posizione. 

Abbiamo già visto il metodo standard "scan’ in un esempio precedente. 
Esiste però un altro metodo standard delle stringhe che si comporta un 
po' diversamente: ‘split’. Quest'ultimo è complementare a ‘scan’, tant'è 
vero che restituisce un array contenente solo le parti di stringa non 
individuate dalla regex. 

Vediamo per l'ennesima volta l'esempio iniziale usando però ‘split’ al 
posto di "scan: 


irb(main):001:0> s = "texwille ritexwil ritexto 
12tex345" 

=> "texwille ritexwil ritexto 12tex345" 
irb(main):002:0> s.split(/\b(?=\w{8}\b)\w{1,4}tex\ & 
w°/) 
=> ["texwille ", " ritexto "] 
irb(main):003:0> 

Osserviamo gli spazi ai bordi delle due stringhe trovate: sono presenti 
nel testo iniziale e, non essendo individuati dalla regex, vengono 


mantenuti nell'array restituito. 


NOTA Per approfondire le caratteristiche delle regex in Ruby 


possiamo esaminare la documentazione ufficiale: 


http://www.rubylang.org/en/documentation/. 


Conclusioni 


In questo capitolo abbiamo illustrato l'uso delle regular expression nel 


linguaggio di programmazione Ruby. 


Capitolo 18 


Regex in Perl 


In questo capitolo esamineremo l'uso delle regular expression in Perl. 


Perl 


Perl è un linguaggio di programmazione dinamico e in questo senso è 
simile a Python e Ruby; per un certo verso è il loro antenato, visto che è 
nato dalla mente di Larry Wall che lo rese pubblico alla fine del 1987. 

Il nome inizialmente era Pearl (perla) e sembra che Larry abbia preso 
spunto dalla parabola della perla nel vangelo di Matteo, scegliendo 
quindi un nome breve che avesse una connotazione positiva. Poco prima 
del rilascio ufficiale nel dicembre del 1997, Larry scopri che esisteva già 
un linguaggio di programmazione chiamato Pearl (oggi molto meno 
diffuso di Perl) e quindi cambiò nome alla sua creatura, togliendo una 
lettera e accorciandolo ulteriormente. 

Dal nome Perl col tempo è poi nato il ’bacronimo’ Practical Estracting 


Report Language (linguaggio pratico per l'estrazione di report). 


NOTA ’Bacronimo” è un neologismo che abbiamo testé coniato 
per il termine inglese backronym che a sua volta è un insieme di 
back (all'indietro) e acronym (acronimo). In pratica il “bacronimo” 
si riferisce alle situazioni in cui prima nasce il nome e solo in 
seguito vengono trovate delle parole le cui iniziali si adattano al 
novello acronimo. 


Perl è nato con lo scopo di essere un linguaggio per la manipolazione 
veloce e pratica di testi ma in seguito è stato usato (e lo è tutt'oggi) per 
un'ampia varietà di compiti, come scrivere programmi per 
l'amministrazione di sistemi, applicativi web, programmi con interfacce 
grafiche e così via. 

Si può descrivere in una frase il motivo per il quale è stato realizzato 
Perl: è stato creato in un momento in cui i computer cominciavano a 
costare meno della forza lavoro umana e quindi i linguaggi di 
programmazione tradizionali, come il Fortran, il Cobol e il C, che 
ottimizzavano l'uso dell'hardware non erano altrettanto efficienti 
nell'ottimizzazione delle risorse umane. Perl invece era perfetto per 
questo compito, perché riduceva la fatica del programmatore a spese di 
maggiori risorse computazionali e di memoria. 

Per questo motivo, Perl non sposa nessun paradigma di 
programmazione ma, nella versione attuale, permette di scegliere tra un 
approccio procedurale, ad oggetti o funzionale. 

Le specifiche del linguaggio non sono mai state scritte e l'interprete 
stesso costituisce a tutti gli effetti lo standard di Perl. 

La versione attuale stabile e distribuita è la 5.8 anche se la 5.0 ha visto 
la luce nel lontano 1994. Dal 2000 è in fase di progettazione e 
realizzazione la versione 6.0. 

Perl è disponibile per tutte le principali piattaforme e il sito ufficiale 
dal quale possiamo scaricare sorgenti o programmi di installazione e 
leggere tutta la documentazione che ci serve è: 


http://www.perl.org 


Come usare le regex in Perl 


Come in Ruby, anche in Perl le espressioni regolari costituiscono 


parte integrante del linguaggio (per la verità questa è una delle 


caratteristiche che Ruby ha mutuato dal suo progenitore). 


Vediamo come cercare una stringa in Perl. 


NOTA Si tratta del problema che abbiamo proposto alla fine del 
primo capitolo: trovare all'interno di una frase tutte le parole di 
otto lettere che contengono la sottostringa "tex’, ma non all'inizio e 
nemmeno alla fine di essa. 

$s = "texwille ritexwil ritexto 12tex345"; 

while ($s => m/b(?=\w{8}b)\w{1,4}tex\w*/5) { 


print "$&\n"; 
} 


Se eseguiamo il sorgente precedente con l'interprete Perl, otteniamo il 
seguente output: 
ritexwil 
12tex345 
NOTA Il segno del dollaro in Perl indica una variabile di tipo 


testuale ed è obbligatorio in presenza di tale tipo di dati. 


Il comando che ci permette di cercare una stringa è la "m’ (da match, 
individuare la corrispondenza) subito dopo l'operatore "=-". La variabile 
che indica la corrispondenza trovata è "$&°. 

Vediamo ora come modificare una stringa: $s = "maglione rosso" ; 


$s = "maglione rosso" ; 
$s =- s/(bianco!rosso)/colore $1/ ; 
print $s 


Ecco il risultato che otteniamo eseguendo il codice sorgente 
precedente: 


maglione colore rosso 


NOTA Abbiamo usato la backreference per richiamare la stringa 
relativa al colore. In Perl le backreference sono ottenute con ‘$1, 
‘$2° e così via e non con il backslash come abbiamo visto fino a 
questo momento. 


In questo caso abbiamo fatto uso del comando ’s’ per sostituire la 


corrispondenza trovata tramite la regex. 
Per utilizzare i modificatori con Perl basta aggiungere dopo la regex il 


parametro desiderato fra i seguenti. 


Trova o sostituisci tutte le occorrenze. 
Non distinguere fra le lettere maiuscole e minuscole. 
Modalità multi-riga. 


Ottimizza i pattern, compilandoli una sola volta. 
Attiva modalità estesa di regex. 


Vediamo come si può rendere case insensitive il precedente esempio: 





$s = "maglione BIANCO" ; 
$s =- s/(bianco!rosso)/colore $1/i ; 
print $s 


Eseguiamo il codice e otteniamo il seguente output: 


maglione colore BIANCO 


Particolarità del motore regex Perl 


Nel paragrafo precedente abbiamo avuto modo di osservare che i 
modificatori vengono inseriti direttamente nella regex, a sua volta 


delimitata dalla barra semplice ‘/’ (slash). 


NOTA Anche questo costituisce un carattere che Ruby ha ereditato 


da Perl (insieme a molti altri, come per esempio l'operatore "=-). 


Se dobbiamo usare la barra ‘/’ all'interno della nostra regex, dobbiamo 
anteporle il backslash "\° oppure possiamo usare un altro carattere 
speciale per delimitare la nostra regex. 

È quindi valido questo esempio: 


$s="30/10=3"; 
$s =- s/V/diviso/ ; 


print $s 


Ma lo è anche quest'altro: 


$s="30/10=3"; 
$s =- si/Idivisol ; 
print $s 


Entrambi infatti producono il seguente risultato: 
30 diviso 10 = 3 

Un'altra particolarità delle regex di Perl che abbiamo già visto in uno 
degli esempi del paragrafo precedente è rappresentata dalle variabili di 
backreference. In Perl si chiamano ‘$1°, ‘$2° e così via. 


In realtà esistono molte altre variabili e funzioni proprie di Perl e che 


riguardano le regex. Queste sono le principali. 


Variabili di backreference. 
Variabile per l'ultima backreference. 


& 


SO Stringa che precede la corrispondenza individuata. 
Stringa che segue la corrispondenza individuata. 


@ Array con le posizioni nella stringa in cui sono state trovate 
le corrispondenze. 

$-[n] Array con le posizioni nella stringa in cui è stata trovata l'n- 
esima corrispondenza. 


Funzione array con le posizioni della stringa in cui è stata 
trovata l'n-esima corrispondenza. 


S Variabile per l'intera corrispondenza individuata. 
S 
S 


pos( ) 





Modifichiamo il primo esempio per vedere all'opera queste variabili: 


$s = "texwille ritexwil ritexto 12tex345"; 
while ($s => m/\b(?=\w{8}\b)\w{1,4}tex\w*/g) { 
print "\@- @- \n"; 

print "\$-[0] $-[0] \n"; 

print "\$' $' \n"; 


print "\$° $° \n5; 
print pos($s) . " pos(\$s)\n"; 


NOTA Il punto in Perl è il carattere che consente di concatenare le 
diverse parti di un output con il comando ‘print. 


L'esecuzione del precedente script produce questo output: 
@- 9 
$-[0]9 
$' ritexto 12tex345 


$° texwille 
17 pos($s) 


$°  texwille ritexwil ritexto 


34 pos($s) 


NOTA Per approfondire gli aspetti delle regex in Perl possiamo 
trovare la documentazione ufficiale al seguente indirizzo: 


http://www.perl.org/docs.html. 


Conclusioni 


In questo capitolo abbiamo illustrato l'uso delle regular expression 
con il linguaggio di programmazione Perl. 


Capitolo 19 


Regex in PHP 


In questo capitolo esamineremo l'uso delle regular expression nel 
linguaggio di programmazione PHP. 


PHP 


Il termine PHP è uno dei tanti acronimi ricorsivi tanto cari alla cultura 
hacker. Il suo significato è ‘PHP hypertext preprocessor” (preprocessore 
di ipertesti PHP) La prima "P' significa nuovamente PHP; da qui la 
ricorsività dell'acronimo. A essere sinceri, inizialmente l'acronimo 
significava Personal Home Page (pagina iniziale personale) ma ci piace 


molto di più la versione ricorsiva. 


NOTA Nel mondo di Internet, “hacker” non è assolutamente un 
termine dispregiativo. È stato il mondo dei media tradizionali, i 
giornali e la televisione, ad affibbiargli una connotazione negativa. 
Un ‘hacker’ è un grande esperto di computer o anche qualcuno che 
modifica e ripara apparecchiature elettroniche per migliorarne le 
funzionalità. Il termine corretto per chi effettua attività più o meno 


illegali è “cracker (colui che viola) o “black hat” (cappello nero). 


La definizione di PHP presente sul sito ufficiale http://www.php.net/ è la 
seguente. 

"PHP è un diffuso linguaggio di scripting per utilizzo generale, 
particolarmente adatto per lo sviluppo di applicativi Web e che può 
essere inserito all'interno del codice HTML." 


La descrizione ufficiale sembra limitare il campo d'azione di PHP 
principalmente al mondo dei server web, ma in realtà questo linguaggio 
viene frequentemente utilizzato anche per realizzare applicativi 
eseguibili dalla riga di comando o veri e propri programmi client-side 
con un'interfaccia grafica, normalmente ottenuta tramite librerie 
grafiche, come per esempio GTK+. 

PHP fu prodotto come una serie di eseguibili CGI (common gateway 
interface, interfaccia comune di ingresso) scritti nel 1994 in linguaggio C 
dal danese Rasmus Lerdorf per sostituire un insieme di script in Perl che 
usava per la sua pagina personale. Visto che piano piano l'insieme di 
eseguibili prese una discreta forma, nel giugno del 1995 Rasmus decise 
di renderlo pubblico. In seguito, nel 1997, due programmatori israeliani, 
Zeev Suraski e Andi Gutmans, riscrissero il parser, gettando le basi per 
quello che in seguito fu chiamato PHP 3 (furono proprio loro a coniare 
l'acronimo ricorsivo). 

Nel maggio del 2000 nacque PHP 4 e infine (per ora) nel luglio 2004 
vide la luce PHP 5 che è attualmente l'ultima versione “maggiore” 


disponibile (la versione “minore” 5.2.1 è stata rilasciata nel febbraio 2007). 


Come usare le regex in PHP 


Le regex in PHP sono disponibili tramite due gruppi di funzioni: 
quelle che iniziano per “ereg_" e quelle che iniziano per “preg_. 

Il primo gruppo è quello più “antico” e non offre molte delle 
funzionalità più avanzate delle regular expression, mentre il secondo si 
appoggia alla libreria open-source PCRE che è inclusa nelle ultime 


versioni di PHP. Negli esempi utilizzeremo le funzioni avanzate PCRE. 


NOTA PCRE è l'acronimo di ‘Perl Compatible Regular 
Expressions” (espressioni regolari compatibili con Perl). Moltissime 


implementazioni non sono altro che wrapper (letteralmente 


involucri’) per questa ottima libreria scritta in linguaggio C. Il 
sito dal quale possiamo scaricarla e leggere un po' di 
documentazione è http://www.pcre.org/. 


Vediamo come cercare una stringa in PHP utilizzando la funzione 


"pre g_match': 


NOTA Si tratta del problema che abbiamo proposto alla fine del 
primo capitolo: trovare all'interno di una frase tutte le parole di 
otto lettere che contengono la sottostringa “tex’, ma non all'inizio e 
nemmeno alla fine di essa. 

<?php 

$s = "texwille ritexwil ritexto 12tex345"; 

>$p = '/\b(?=\w{8}\b)\w{1,4}tex\w*/"; 

preg_match($p, $s, $trovate); 


print_r($trovate); 
?> 


NOTA PHP è un preprocessore di ipertesti e quindi, normalmente, 
il suo codice viene inserito all'interno di codice sorgente HTML. Il 
tag che lo racchiude è ‘<?php ... ?>°. Per questo motivo, anche se 
eseguiamo uno script PHP dalla riga di comando dobbiamo 
inserire questi tag. La funzione ‘printr’ non fa altro che 
visualizzare in un formato facilmente leggibile i parametri 
passati. 


Eseguendo il sorgente precedente con l'interprete PHP otteniamo 
questo risultato: 


Array 
( 


[0] => ritexwil 


) 


La funzione ‘preg match” trova una sola occorrenza, la prima. Se 


vogliamo trovarle tutte dobbiamo usare “preg_match_all”: 


<?php 

$s = "texwille ritexwil ritexto 12tex345"; 
$p = '/\b(?=\w{8}\b)\w{1,4}tex\w*/"; 
preg_match_all($p, $s, $trovate); 
print_r($trovate); 

12° 


Il risultato in questo caso cambia e include tutte le occorrenze: 


Array 


( 
[0] => Array 


( 
[0] => ritexwil 
[1] => 12tex345 
) 


Vediamo ora come modificare una stringa utilizzando la funzione 


” ” 
preg_replace : 


<?php 

$s = "maglione rosso"; 

$p = "/(biancolrosso)/"; 

$r = "colore \\1"; 

echo preg_replace($p, $r, $s); 


12° 
NOTA Abbiamo usato la backreference con \\1° per richiamare la 
stringa relativa al colore. Il doppio backslash è dovuto alla usuale 
motivazione che in molti linguaggi, PHP compreso, il singolo 


backslash è un carattere speciale per la gestione delle stringhe. 


Ecco l'output dello script: 
maglione colore rosso 

Per utilizzare i modificatori con PHP è sufficiente, come in Perl, 
aggiungere dopo la regex il parametro desiderato. 


PHP offre un gran numero di possibili modificatori. 
Tabella 19.1 Modificatori in PHP. 


Modificatore | Descrizione 


Non distinguere fra le lettere maiuscole e minuscole. 


Modalità multi-riga (l'accento circonflesso "* 


ancora all'inizio e dopo ogni carattere di a-capo, il 
dollaro “$" si ancora alla fine e prima di ogni carattere 
di a-capo). 


si 


Modalità mono-riga singola (il carattere jolly punto 
corrisponde a tutti i caratteri, compreso il carattere di 
a-capo). 


Modalità estesa (gli spazi all'interno della regex 
vengono ignorati, se non in un'espressione; lo stesso 
dicasi per i caratteri che seguono il carattere 
cancelletto “#’ fino al primo carattere di a-capo; in 
questo modo possiamo inserire dei commenti nella 
nostra regex). 


Con questo modificatore la funzione “preg_replace” 
(l'unica che lo usi) valuta la stringa da sostituire come 
codice PHP prima di utilizzarla. 


Ancoraggio forzato della regex all'inizio del testo. 


L'ancoraggio dollaro “$” funziona solo con la fine del 
testo. Non funziona contemporaneamente al 
modificatore “m°. 


In presenza di un pattern da usare più volte, questo 
modificatore permette al motore di effettuare 
un'analisi avanzata per ottimizzare ulteriormente la 


Modalità non ingorda ("U’ da ungreedy, non- 
ingordigia) dei quantificatori. 


Modalità a funzionalità estese di PCRE, non 
compatibili con Perl. 

Modalità Unicode, che considera l'encoding UTF-8 
per le espressioni regolari. 





Proviamo a usare il modificatore ‘i per rendere case insensitive la 
nostra sostituzione: 


<?php 

$s = "maglione BIANCO"; 
$p = "/(biancolrosso)/i"; 
$r = "colore \\1"; 


echo preg_replace($p, $r, $s); 
29 


Lo script, se eseguito, fornisce il risultato atteso: 


maglione colore BIANCO 


Particolarità del motore regex PHP 


Abbiamo già detto che PHP offre due insiemi di funzioni distinte che 
danno accesso alle potenzialità delle regular expression; sempre nel 
paragrafo precedente, abbiamo visto il lungo elenco di modificatori 
messi a disposizione da questo linguaggio. 

La variabili di backreference in PHP possono anche essere richiamate 
come in Perl con ‘$1’, ‘$2" e così via. 


Rivediamo l'ultimo esempio con questa sintassi di backreference: 


<?php 

$s = "maglione BIANCO"; 
$p = "/(biancolrosso)/i"; 
$r = "colore $1"; 


echo preg_replace($p, $r, $s); 
129 


L'output non cambia: 


maglione colore BIANCO 


NOTA La documentazione delle regex in PHP è a disposizione 


all'indirizzo web http://www.php.net/manual/it/ref.pcre.php. 


Conclusioni 


In questo capitolo abbiamo illustrato l'uso delle regular expression nel 


linguaggio di programmazione PHP. 


Capitolo 20 


Regex in JavaScript 


In questo capitolo esamineremo l'uso delle regular expression con il 


linguaggio JavaScript. 


JavaScript 


La storia di JavaScript è abbastanza complessa, per cui ci limiteremo a 
un riassunto degli eventi più importanti. 

Iniziamo dal nome: JavaScript non ha proprio niente a che fare con 
Java. Nel 1995, Brendan Eich di Netscape (allora produttrice e 
proprietaria del browser più diffuso al mondo) sviluppò un linguaggio di 
scripting da inserire nel browser. Inizialmente la società lo chiamò 
Mocha e poi Livescript. In seguito a un accordo con Sun, che 
comprendeva l'inserimento della Java Virtual Machine nel browser 
Netscape, il nome venne infine cambiato in JavaScript. 

Nell'agosto del 1996, Microsoft, seguendo una prassi consolidata che 
le ha portato tanto successo (anche se discusso), sviluppò una sua 
versione di JavaScript, JScript, includendola nella versione 3.0 del proprio 
browser Internet Explorer. Ovviamente la versione di Microsoft 
introduceva nel linguaggio varie estensioni proprietarie, che rendevano 
incompatibile con il browser Netscape il codice JScript che le avesse 
usate. 

Nel giugno del 1997 l'ente Ecma International definì lo standard 
ECMA-262 che stilava le specifiche di un linguaggio di scripting 


chiamato ECMAScript. 


NOTA Anche l'ente internazionale Ecma ha una storia particolare. 
L'acronimo ECMA in origine significava "European Computer 
Manufacturers Association’ (associazione europea dei produttori di 
computer). Quando però l'ente diventò internazionale, mutò il 
proprio nome aggiungendo il termine International’ e perdendo la 
connotazione dell'acronimo originale, tant'è vero che ora viene 


usualmente scritto con solo l'iniziale maiuscola. 


A. tutt'oggi JavaScript e JScript sono considerate le due 
implementazioni più diffuse di ECMAScript, per cui, in termini precisi, 
avremmo dovuto parlare di regex in ECMAScript. Non l'abbiamo fatto 
perché pochi avrebbero riconosciuto in questo termine l'insieme che 
racchiude, tra gli altri, iben più conosciuti JavaScript e JScript. 

JavaScript, primo tra i linguaggi che abbiamo sinora affrontato, non fa 
parte dei progetti open-source, tant'è vero che è un marchio registrato 
da Sun Microsystems. 

Attualmente la società Netscape non esiste più e il browser che ha 
preso il posto di Netscape Navigator è Firefox, sviluppato dalla Mozilla 
Foundation, nata per assicurare che il codice su cui si basa Netscape non 


morisse dimenticato. 


NOTA Attualmente, secondo le stime di W3 Schools (il cui 
indirizzo è http://www.w3schools.com/default.asp), Firefox raggiunge una 
diffusione tra il 30 e il 35%, mentre l'insieme dei browser Internet 
Explorer supera il 55% (sempre primo, ma certamente molto 
lontano dall'85% del 2002). Queste stime lasciano sicuramente il 
tempo che trovano per quanto riguarda i valori assoluti, ma 
indicano la precisa e indiscutibile tendenza alla fine della 
‘dittatura’ di Internet Explorer. 


Come usare le regex in JavaScript 


JavaScript supporta le regex in modo nativo fin dalla versione 1.2. A 
proposito del supporto delle regular expression per un certo linguaggio 
di programmazione, normalmente si parla di una determinata versione 
del linguaggio. Nel caso di JavaScript si deve considerare anche la 
versione del browser che lo ospita. 

JavaScript 1.2 è oramai supportato da tutti i principali browser: Firefox, 
Safari, Opera, Konqueror, Internet Explorer. Ma anche ActionScript di 
Flash segue la sintassi dello standard ECMA-262. 

Per accedere alle funzionalità delle regex con JavaScript dobbiamo 
usare l'oggetto "RegExp. Vediamo come possiamo cercare una stringa 


tramite questo oggetto. 


NOTA Si tratta del problema che abbiamo proposto alla fine del 
primo capitolo: trovare all'interno di una frase tutte le parole di 
otto lettere che contengono la sottostringa "tex’, ma non all'inizio e 


nemmeno alla fine di essa. 


<HTML> 

<BODY> 

<SCRIPT LANGUAGE="Javascript"><!-- 

var s = "texwille ritexwil ritexto 12tex345"; 

var p = new RegExp(/\b(?=\w{8}\b)\w{1,4}tex\w*/); 
if (s.match(p)) 

{ 


alert("Trovato"); 


} 


else 


{ 


alert("Non trovato"); 
} 
I] > 
</SCRIPT> 
</BODY> 
</ATML> 


NOTA Se PHP era un preprocessore di ipertesti, favaScript è un 
linguaggio di scripting per ipertesti, quindi il suo codice viene 
spesso inserito all'interno del codice sorgente HTML tramite 
appositi tag. La funzione “alert” apre una piccola finestra pop-up 
che mostra l'argomento passato. Notiamo l'utilizzo del metodo 
‘match’ della stringa a cui passiamo la regex creata 


precedentemente con l'oggetto ‘RegExp 


Se apriamo un file come il precedente con un browser qualsiasi tra 
quelli che abbiamo elencato e che supportano JavaScript 1.2, otterremo 


una finestra simile a quella rappresentata nella Figura 20.1. 


Lei 


[JavaScript Application] 


/g\, Trovato 





Figura 20.1 Finestra pop-up che segnala il successo della nostra regex. 


Se vogliamo trovare tutte le occorrenze dobbiamo utilizzare del codice 
leggermente diverso: 


<HTML> 

<BODY> 

<SCRIPT LANGUAGE="Javascript"><!-- 

var s = "texwille ritexwil ritexto 12tex345"; 

var p = new RegExp(/\b(?=\w{8}\b)\w{1,4}tex\w*/g); 
var ris = ""; 


while (r = p.exec(s)) 


ris+=r+"\0"; 
} 
alert(ris); 
[| --> 
</SCRIPT> 
</BODY> 
</HTML> 


NOTA La prima differenza da notare è il flag ‘g” in fondo alla 
nostra regex. Poi abbiamo usato ripetutamente il metodo ‘exec’ 
dell'oggetto creato per recuperare in sequenza tutte le occorrenze 
trovate e appenderle alla variabile ‘vis’ visualizzata alla fine con 


un alert”. 
L'output è rappresentato nella Figura 20.2. 
Vediamo ora come modificare una stringa con le regex di JavaScript: 


Lai 


[JavaScript Application] 


ritexil 


l ! \) 12tex345 





Figura 20.2 Finestra pop-up con tutte le occorrenze trovate. 


<HTML> 

<BODY> 

<SCRIPT LANGUAGE="Javascript"><!-- 
var s = "maglione rosso"; 

var p = new RegExp(/(bianco!rosso)/); 
s = s.replace(p, "colore $1"); 

alert(s); 

Jf => 

</SCRIPT> 

</BODY> 

</HTML> 


NOTA In JavaScript la backreference si ottiene con ‘$1”. 


Nella Figura 20.3 vediamo l'output del nostro script. 


Lei 


[JavaScript Application] 


maglione colore rosso 


A) 





Figura 20.3 La stringa sostituita. 


I modificatori in JavaScript si possono utilizzare aggiungendo dopo la 
regex il parametro desiderato. 


I modificatori di JavaScript sono i seguenti. 


Non distinguere fra lettere maiuscole e minuscole. 


Modalità globale che permette di trovare o sostituire tutte le 
occorrenze della regex. 


Modalità multi-riga (gli ancoraggi "*” accento circonflesso e "$" 
dollaro corrispondono a ogni inizio e fine riga). 





Mettiamo subito alla prova il modificatore ‘i’ per rendere case 
insensitive la nostra sostituzione: 


<HTML> 

<BODY> 

<SCRIPT LANGUAGE="Javascript"><!-- 
var s = "maglione BIANCO"; 

var p = new RegExp(/(bianco!rosso)/i); 
s = s.replace(p, "colore $1"); 

alert(s); 

I] > 

</SCRIPT> 

</BODY> 

</ATML> 


Vediamo, senza sorprese, nella Figura 20.4, la finestra ottenuta. 


Lal 


[JavaScript Application] 


/ maglione colore BIANCO 
lA \ 





Figura 20.4 La stringa è sostituita anche se scritta in maiuscolo. 


Particolarità del motore regex JavaScript 


Abbiamo già visto alcune delle particolarità nel paragrafo precedente: 
i modificatori sono inseriti direttamente nella regex che è delimitata dalla 
barra semplice "/° (slash). Se il contenuto della regex è in una stringa 
allora il modificatore può essere passato come ulteriore parametro. 
Rivediamo l'ultimo esempio riscritto con questa modalità: 


<HTML> 

<BODY> 

<SCRIPT LANGUAGE="Javascript"><!-- 
var s = "maglione BIANCO"; 
var m = "(biancolrosso)"; 

var p= new RegExp(m, "i"); 
s = s.replace(p, "colore $1"); 
alert(s); 

{=> 

</SCRIPT> 

</BODY> 

</HTML> 


NOTA La riga ‘incriminata’ è la seguente: 


var p = new RegExp(m, "i"); 


Un'altra caratteristica di JavaScript, mutuata in buona parte da Perl, è 
rappresentata dalle variabili di backreference. Anche in JavaScript si 
chiamano ‘$1°, ‘$2" e così via. 

Esistono inoltre altre variabili accessibili come attributi dell'oggetto 


globale "RegExp : 


lastMatch ultima corrispondenza trovata; 
leftContext stringa che precede la corrispondenza trovata; 


rightContext | stringa che segue la corrispondenza trovata; 
lastParen ultima backreference trovata. 


Modifichiamo uno degli esempi precedenti per verificare il 





funzionamento di queste variabili: 


<BODY> 
<SCRIPT LANGUAGE="Javascript"><!-- 


var s = "texwille ritexwil ritexto 12tex345"; 
var p = new RegExp(/\b(?=\w{8}\b)\w{1,4}tex\w*/g); 


var ris = ""; 


while (r = p.exec(s)) 


ris += "leftContext " + 
RegExp.leftContext + "\n"; 
ris += "rightContext " + 
RegExp.rightContext + "\n"; 
ris += "lastMatch " + 
RegExp.lastMatch + "\n"; 
ris += "lastParen " + 
RegExp.lastParen + "\n"; 


alert(ris); 
I] --> 
</SCRIPT> 
</BODY> 
</HTML> 
<HTML> 


Diamo uno sguardo nella Figura 20.5 alla finestra pop-up ottenuta. 


Lal 


[JavaScript Application] 


A leftContext  texwille 
rightContext ritexto 12tex345 
lastMatch — ritexwil 
lastParen 


leftContext  texwille ritexwil ritexto 
rightContext 

lastMatch 12tex345 

lastParen 





Figura 20.5 Alcune delle variabili dell'oggetto RegExp. 


NOTA La variabile ‘lastParen’ non assume mai alcun valore perché 


nell'esempio non abbiamo utilizzato la backreference. 


Un esempio avanzato 


Con JavaScript e con l'aiuto di un browser possiamo provare un 
esempio un po' più avanzato, con un abbozzo di interfaccia grafica: 


<HTML> 
<BODY> 
<SCRIPT LANGUAGE="Javascript"><!-- 
function Cerca() { 
var r = new RegExp(document.RegexPocket.regex. 
value); 
if (document.RegexPocket.stringa.value.match(r)) 


alert("Trovato!"); 


} 


else 


{ 
alert("Non trovato!"); 
} 
} 


function Mostra() { 
var r = new 
RegExp(document.RegexPocket.regex.value, "g"); 
var m = 
r.exec(document.RegexPocket.stringa.value); 
if (m == null) { 
alert("Non trovato!"); 


} 
else 
{ 
var s = "Corrispondenza in posizione:\n"; 
do { 
s += m.index + ": "; 
for (i = 0; i < m.length; i++) { 
s += mli] +"\n"; 
} 
while(m = 
r.exec(document.RegexPocket.stringa.value)); 
alert(s); 
} 
} 


function Sostituisci() { 
var r = new RegExp(document.RegexPocket. 
regex.value, "g"); 
document.RegexPocket.risultato.value = 
document.RegexPocket.stringa.value.replace( 
r, document.RegexPocket.sostituisci.value); 


I] => 
</SCRIPT> 
<FORM METHOD=POST NAME="RegexPocket" 
ACTION="Javascript:void(0)"> 
<P>Regex: <INPUT TYPE=TEXT NAME="regex" 
SIZE=60></P> 
<P>Stringa: <INPUT TYPE=TEXT NAME="stringa" 
SIZE=60></P> 
<P><INPUT TYPE=SUBMIT VALUE="Cerca" 
ONCLICK="Cerca()"> 
<INPUT TYPE=SUBMIT VALUE="Mostra la corrispondenza" 
ONCLICK="Mostra()"></P> 
<P>Sostituisci con: <INPUT TYPE=TEXT 
NAME="sostituisci" VALUE="" SIZE=60></P> 
<P>Risultato: <INPUT TYPE=TEXT NAME="Risultato" 
SIZE=60></P> 
<P><INPUT TYPE=SUBMIT VALUE="Sostituisci" 
ONCLICK="Sostituisci()"></P> 
</FORM> 


</BODY> 
</HTML> 


La Figura 20.6 mostra quello che vediamo aprendo il file precedente 
con Firefox. Nelle Figure 20.7 e 20.8 vediamo come si comporta il nostro 
applicativo con alcuni esempi di questo capitolo. 


Mozilla Firefox =l0jxj 


Ele Edt Ue; Hgtory Bootmerts Iook Help Me marcobori « | 


&® La > hi & LI i, [È Fia:ifiC:tacma.html "| >) [Cie gonga Gil 





Rega fi 

siga 
Cerca | Mostra la comspandenza | 

Sostituisci con | RE 

Risultato | TT 
Sostituisci 


o end: | I txt @ Previa» [iHyightal 
{di [cone e 








Figura 20.6 Semplice strumento JavaScript per provare le regex. 
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Figura 20.7 Risultato del clic sul pulsante “Mostra la corrispondenza”. 
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Figura 20.8 Risultato del clic sul pulsante “Sostituisci”. 





Conclusioni 


In questo capitolo abbiamo illustrato l'uso delle regular expression 
con il linguaggio di scripting JavaScript. 

Abbiamo anche realizzato una pagina HTML con una minima 
interfaccia grafica per verificare il funzionamento delle regex. 


Capitolo 21 


Regex in Java 


In questo capitolo esamineremo l'uso delle regular expression con il 


linguaggio Java. 


Java 


Java è un linguaggio orientato agli oggetti sviluppato da Sun 
Microsystems agli inizi degli anni novanta. Molte persone possono, in 
qualche modo, dire di aver contribuito all'idea di Java. Addirittura fin 
dalla fine degli anni settanta, Bill Joy, allora vice-presidente di Sun, 
concepì l'idea di un nuovo linguaggio che avrebbe poi dato origine a 
Java. Nel gennaio del 1991 si riunì ad Aspen un gruppo di persone tra cui 
Bill Joy, James Gosling, Patrick Naughton e Mike Sheradin, per discutere 
del progetto Stealth (segreto), così come era stato chiamato inizialmente 
da Scott McNealy presidente di Sun. Inizialmente il linguaggio sarebbe 
dovuto servire a programmare periferiche intelligenti, destinate al largo 
consumo, connesse tra loro e controllate a distanza tramite un 
telecomando. Il progetto in seguito cambiò nome in Green (verde) e, 
nell'ambito di questo progetto, James Gosling fu incaricato di sviluppare 
un linguaggio adatto al progetto. Il nome in codice che diede al 
linguaggio fu Oak (quercia), perché al momento stava guardando una 
quercia bianca, fuori dalla finestra. Il nome fu abbandonato perché già 
registrato e, dopo molti caffè, fu scelto il nome Java (che, in americano, è 
sinonimo di caffè). 


NOTA Alcuni dicono che il nome sia in realtà un acronimo 
composto dalle iniziali di alcune delle persone coinvolte nel 
progetto: fames Gosling, Arthur Van Hoff e Andy Bechtolsheim, ma 


nessuno di loro ha mai confermato questa affermazione. 


Date le premesse richieste da un progetto del genere, il linguaggio 
doveva essere estremamente affidabile e completamente indipendente 
dalla piattaforma. Per questo motivo fu subito chiaro che il linguaggio 
doveva essere interpretato, visto che sarebbe stato praticamente 
impossibile riuscire a creare una versione compilata che girasse su più 
piattaforme. Un'altra caratteristica intrinseca del nuovo linguaggio 
doveva essere la sicurezza. 

Il progetto Green non ebbe successo nel conquistare il mercato che si 
era prefissato, ma il linguaggio Java si trovò al momento giusto nel posto 
giusto quando, nel 1994, Patrick Naughton e Jonathan Payne si 
trovarono a realizzare insieme WebRunner (in seguito chiamato 
HotJava), un browser scritto in Java: il Web aveva (ed ha ancora) per sua 
stessa natura la necessità di adottare un linguaggio stabile, sicuro e 
indipendente dall'architettura, tutte caratteristiche che stavano alla base 
del progetto Java. 

Sun annunciò Java e HotJava nel 1995 e subito dopo Netscape 
incorporò Java nel proprio browser (a quel tempo leader assoluto del 
mercato). In seguito anche Microsoft aggiunse il supporto per Java nel 
proprio browser Internet Explorer. 

Tutto ciò, unito alla fortissima campagna di marketing realizzata da 
Sun a supporto del proprio linguaggio, ha fatto sì che Java diventasse il 
linguaggio “principe” nel mondo Web, per la realizzazione di applet 
(mini-applicazioni che “girano” all'interno del browser sul computer 
dell'utente), di servlet (programmi in esecuzione su un Web server) e di 


applicazioni vere e proprie. 


NOTA Attualmente esistono molti altri linguaggi che stanno a 
poco a poco ‘rubando’ la scena a Fava: su tutti Python e Ruby. 
Sean Kelly, un programmatore del FPL (Fet Propulsion Laboratory) 
della NASA ha fatto una meravigliosa presentazione a riguardo: 
http://oodt.jplnasa.gov/better-web-app.mov. Si tratta di un filmato di circa 
20 minuti (il file è più o meno di 380 MB), ma la sua visione è 
assolutamente consigliata. Anche se è in inglese, gli esempi sono 


chiarissimi e le cifre finali parlano da sole... 


Come usare le regex in Java 


Java, a partire dalla versione JDK 1.4, fornisce un motore per le regex 
con una libreria standard (in Java però le librerie si chiamano più 
precisamente package): ‘java.util.regex”. 

Le classi messe a disposizione dal package sono ‘Pattern’ e “Matcher”. La 
prima permette di creare e compilare una regex; la seconda invece serve 
per effettuare una ricerca o una sostituzione. 

Vediamo un esempio di come possiamo cercare una stringa con 


queste due classi. 


NOTA Si tratta del problema che abbiamo proposto alla fine del 
primo capitolo: trovare all'interno di una frase tutte le parole di 
otto lettere che contengono la sottostringa “tex’, ma non all'inizio e 


nemmeno alla fine di essa. 


import java.utilregex.Pattern; 
import java.utilregex.Matcher; 
class RegexPocketApp { 
public static void main(String[] args) { 
String s = new String( 
"texwille ritexwil ritexto 12tex345"); 
Pattern p = Pattern.compile( 
"\b(2=\\w{8}\\b)\\w{1,4}tex\\w®"); 
Matcher m = p.matcher(s); 


while (m.find()) { 
System.out.println(m.group()); 


} 
} 
} 


NOTA Anche in Fava il simbolo backslash ha un significato 
speciale nelle stringhe; pertanto dobbiamo specificarlo doppio per 
far sì che “arrivi” fino motore delle regex senza essere interpretato 
prima. 


NOTA {Java necessita una fase di precompilazione esplicita che i 
linguaggi interpretati di nuova generazione non richiedono più. 
Per provare l'esempio seguente dobbiamo salvare il testo in un file 
che dobbiamo chiamare “RegexPocketApp.java”. Quindi dobbiamo 
eseguire in successione i due comandi seguenti: 
javac RegexPocketApp.java 
java RegexPocketApp 
Ovviamente dobbiamo aver scaricato il JDK (Java Development 
Toolkit) che possiamo trovare gratuitamente sul sito di Sun dedicato a 


Java (http://java.sun.com). 


L'output della piccola applicazione Java è il seguente: 


ritexwil 
12tex345 


Con gli stessi oggetti possiamo modificare una stringa: 


import java.utilregex.Pattern; 
import java.utilregex.Matcher; 
class RegexPocketApp { 
public static void main(String[] args) { 
String s = new String( 
"maglione rosso"); 
Pattern p = Pattern.compile( 
"(bianco!rosso)"); 
Matcher m = p.matcher(s); 
s = m.replaceAll("colore $1"); 
System.out.printIn(s); 


NOTA Se salviamo questo esempio con un nuovo nome, per 


esempio ‘RegexPocketApp.java, dobbiamo cambiare nome anche alla 
classe ‘RegexPocketApp (deve avere lo stesso nome del file “class” 


generato). 
Dopo la fase di compilazione ed esecuzione dello script precedente 


otterremo il seguente risultato: 


maglione colore rosso 


I modificatori in Java si possono utilizzare come parametri aggiuntivi 
nella fase di compilazione del pattern. 


I modificatori principali di Java sono i seguenti. 


CASE_INSENSITIVE | Non distinguere fra lettere maiuscole e minuscole. 
COMMENTS Possibilità di inserire commenti nelle regex. 


Il carattere jolly punto ”.° corrisponde anche al 
DOTALL carattere a-capo (equivale alla modalità monoriga di 
altri linguaggi). 





Modalità multi-riga (gli ancoraggi "*” accento 
MULTILINE circonflesso e “$" dollaro corrispondono a ogni inizio 
e fine riga). 


NOTA Esistono anche altri modificatori meno utilizzati, come 


“CANON_ EQ‘, LITERAL“, UNICODE CASE” e "UNIX LINES”. 


Riproviamo l'esempio con il modificatore “CASE_INSENSITIVE”: 


import java.utilregex.Pattern; 
import java.utilregex.Matcher; 
class RegexPocketApp { 
public static void main(String[] args) { 
String s = new String( 
"maglione BIANCO"); 
Pattern p = Pattern.compile( 
"(bianco|rosso)", pattern.CASE_INSENSITIVE); 


Matcher m = p.matcher(s); 
s = m.replaceAll("colore $1"); 
System.out.printIn(s); 


} 
} 


Il risultato atteso dall'esecuzione del precedente programma Java è il 
seguente: 
maglione colore BIANCO 


Particolarità del motore regex Java 

Alcuni dei modificatori che abbiamo già visto nel precedente 
paragrafo, possono essere inseriti direttamente nel pattern della nostra 
regex. La sintassi è simile a quella presentata nel capitolo relativo ai 
modificatori: 
Pattern.CASE_INSENSITIVE 
Pattern COMMENTS 
Pattern. MULTILINE 
Pattern DOTALL 


Pattern UNICODE_CASE 


Pattern. UNIX_LINES 





Utilizziamo questa sintassi nell'esempio in cui abbiamo impiegato il 
modificatore CASE_INSENSITIVE: 


import java.utilregex.Pattern; 
import java.utilregex.Matcher; 
class RegexPocketApp { 
public static void main(String[] args) { 
String s = new String( 
"maglione BIANCO"); 
Pattern p = Pattern.compile( 
"(?i)(bianco!rosso)"); 
Matcher m = p.matcher(s); 
s = m.replaceAll("colore $1"); 
System.out.printIn(s); 


Il risultato, ovviamente, non cambia: 
maglione colore BIANCO 


Gli oggetti creati tramite le classi Pattern’ e “Matcher’ hanno molti 
metodi utili per reperire informazioni sulle corrispondenze trovate con la 
regex. 

Senza volerli esaminare uno per uno, diamo uno sguardo a un 
esempio che usa i metodi start’ ed “end” che ci indicano la posizione 
iniziale e finale della corrispondenza trovata all'interno della stringa: 


import java.utilregex.Pattern; 
import java.utilregex.Matcher; 
class RegexPocketApp { 
public static void main(String[] args) { 
String s = new String( 
"texwille ritexwil ritexto 12tex345"); 
Pattern p = Pattern.compile( 
"\\b(?=\\w{8}\\b)\\w{1,4}tex\\w*"); 
Matcher m = p.matcher(s); 
while (m.find() { 
System.out.println("----------------- #} 
System.out.printIn("group(): "+m.group()); 
System.out.printIn("start(): "+m.start()); 
System.out.printIn("end(): "+m.end()); 


} 


Il risultato dell'esecuzione è il seguente: 


group(): ritexwil 
start(): 9 

end(): 17 
group(): 12tex345 
start(): 26 

end(): 34 


NOTA Per una descrizione dettagliata delle classi e dei metodi del 


package regex, possiamo esaminare la documentazione disponibile 


sul sito Sun: http://java.sun.com/docs/books/tutorial/essential/regex/index.html 


Conclusioni 


In questo capitolo abbiamo illustrato l'uso delle regular expression 


con il linguaggio di scripting Java. 


Capitolo 22 


Regex in .NET 


In questo capitolo esamineremo l'uso delle regular expression con il 
framework Microsoft .NET. 


.NET 


L'ambiente di programmazione .NET è stato realizzato da Microsoft e 
rilasciato per la prima volta nel 2002. In .NET è possibile sviluppare 
applicazioni usando molti linguaggi: C#, Visual Basic.NET, C++, J#, 
JScript. NET, IronPython e altri. 

I programmi, quale che sia il linguaggio utilizzato per scriverli, 
vengono poi compilati in un metalinguaggio comune (denominato 
MSIL, Microsoft Intermediate Language) tramite lo strumento di 
sviluppo che abbiamo scelto; questo permette a file di codice sorgente 
scritti in linguaggi differenti di presentarsi in modo uniforme 
all'ambiente run-time, chiamato CLR (Common Language Runtime), che 
provvede all'ultima compilazione just-in-time (JIT, letteralmente “appena 
in tempo) in linguaggio macchina e all'effettiva esecuzione del codice. 

CLR è a tutti gli effetti una vera e propria macchina virtuale, così 
come lo è la JVM di Java o l'interprete di linguaggi di Python, Ruby e 
Perl. Ma come abbiamo detto, a differenza di queste ultime macchine 
virtuali, con CLR possiamo utilizzare più di un linguaggio. 

I principali obiettivi che Microsoft si è imposta durante la 


progettazione di .NET sono stati l'indipendenza dal linguaggio, la 


facilitazione del lavoro degli sviluppatori, la sicurezza e una ampia 
libreria di funzioni comuni. 

Contemporaneamente a .NET, Microsoft ha deciso di sviluppare un 
nuovo linguaggio il cui nome è C# (si pronuncia "C-sharp'). 

In questo capitolo, per gli esempi delle regex in .NET, utilizzeremo 
proprio il linguaggio C#. 


NOTA Nonostante sia un linguaggio di programmazione 
abbastanza recente e sebbene non introduca molte innovazioni (c'è 
chi afferma che sia un ibrido fra Fava e C++), C# ha già raggiunto 
una discreta diffusione. Nell'ottimo indice pubblicato mensilmente 
dalla TIOBE si trova attualmente all'ottavo posto, dopo aver 
raggiunto anche il settimo, come possiamo notare osservando la 
Figura 22.1 (http://www.tiobe.com/index.htm?tiobe_index). 


Come usare le regex in .NET 


Fortunatamente il supporto per le regex in .NET è completo e 
approfondito fin dal primo rilascio, per cui, per poterle usare, non 
dobbiamo scaricare o installare alcun pacchetto aggiuntivo (cosa che 
invece dobbiamo fare, per esempio, se vogliamo usare le regex con 
Visual Basic 6.0, come vedremo nel prossimo capitolo). 

La libreria (in .NET però si chiamano più precisamente namespace 
ovvero spazi dei nomi) che contiene tutte le classi per la gestione delle 
regex si chiama ’SystemText.RegularExpressions” e l'istruzione completa per 
usarla in un nostro programma in C# è: 


using System.Text.RegularExpressions; 


In VB.Net l'istruzione corrispondente è invece: ‘Imports System. 


Text.RegularExpressions » 


Vediamo un esempio completo di ricerca di una stringa con una regex 
realizzata in C#: 


using System; 

using System.Collections.Generic; 
using System.Text; 

using System.Text.RegularExpressions; 
namespace RegexPocketConsole 


{ 
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Figura 22.1 Indice dell'uso stimato dei linguaggi. 


class Program 
{ 
static void Main(string[] args) 
{ 
String s = 
"texwille ritexwil ritexto 12tex345"; 
Regex r = new Regex( 


"\b(2=\\w{8}\\b)\lw{1,4}tex\\w®"); 


Match m = r.Match(s); 
while (m.Success == true) 


{ 


Console.WriteLine(m.Value); 
m = m.NextMatch(); 


} 
} 
} 
} 


NOTA Anche in C#, come in Java e in altri linguaggi di 
programmazione, il backslash ha un significato speciale nelle 
stringhe e dobbiamo quindi ’raddoppiarlo’. In alternativa 
possiamo anteporre la "chiocciola" a tutta la stringa, ovvero @\b(? 
=\w{8}\b)\w{1,4}texw®" 


NOTA Per semplicità, il progetto che abbiamo creato è di tipo 
“Console Application’, come mostrato nella Figura 22.2. In questo 
modo possiamo eseguire il nostro programma direttamente dalla 
riga di comando. 


Dopo aver compilato la nostra applicazione, possiamo eseguirla. Nella 


Figura 22.3 è visualizzato l'output che otteniamo. 
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Figura 22.2 Nuovo progetto di tipo Console Application in C#. 


* CAWINNT\system32\cmd.exe 


C:\>RegexPocketConsole.exe 
ritexwil 


1?2tex345 


GENS 





Figura 22.3 L'output dal prompt dei comandi di RegexPocketConsole. 
Proviamo ora a scrivere un'applicazione che modifica una stringa: 


using System; 
using System.Collections.Generic; 
using System.Text; 
using System.Text.RegularExpressions; 
namespace RegexPocketConsole 
{ 
class Program 
{ 
static void Main(string[] args) 
{ 
String s = "maglione rosso"; 
Regex r = new Regex("(bianco!rosso)"); 
s = r.Replace(s, "colore $1"); 
Console.WriteLine(s); 
} 
} 
} 


Il programma, una volta compilato ed eseguito, visualizzerà la 
seguente stringa: 
maglione colore rosso 

I modificatori, in .NET, sono disponibili come attributi della classe 
‘RegexOptions”. 

I principali, in dettaglio, sono i seguenti. 


Tabella 22.1 Modificatori in .NET. 


Modificatore Descrizione 


Non distinguere fra lettere maiuscole e 
IgnoreCase . 

minuscole. 

Il carattere jolly punto ”.° corrisponde anche al 
Singleline carattere a-capo (equivale alla modalità mono- 

riga di altri linguaggi). 

Modalità multi-riga (gli ancoraggi "*” accento 
Multiline circonflesso e ‘$° dollaro corrispondono a ogni 

inizio e fine riga). 


Segnala al motore di regex di compilare 
Compiled l'espressione, in modo da velocizzarne al 
massimo l'esecuzione 
IgnorePatternWhitespace | Possibilità di inserire commenti nelle regex 


Specifica che la backreference è attiva solo per i 
gruppi con nome ‘“(?<nome...>)". In questo modo 
la parentesi normali fungono da gruppi passivi, 


ExplicitCapture 


” 
. 


senza la necessità di inserire il comando ‘(?: ) 


Specifica che la ricerca debba essere condotta da 
Right ToLeft destra verso sinistra (in pratica, prima di iniziare, 
la stringa viene rovesciata ) 


NOTA Gli altri modificatori, meno utilizzati, sono “CultureInvariant” 





T/À TÀ 
e None . 


Riproviamo l'esempio applicando il modificatore ‘IgnoreCase”: 


using System; 

using System.Collections.Generic; 
using System.Text; 

using System.Text.RegularExpressions; 
namespace RegexPocketConsole 


{ 


class Program 


static void Main(string[] args) 


{ 
String s = "maglione BIANCO"; 
Regex r = new Regex("(bianco!rosso)", 
RegexOptions.IgnoreCase); 
s = r.Replace(s, "colore $1"); 
Console.WriteLine(s); 


} 
} 
} 


Come ormai dovremmo avere imparato, il risultato atteso 
dall'esecuzione del precedente programma C# è il seguente: 


maglione colore BIANCO 


Particolarità del motore regex .NET 


Il supporto per le regular expression di .NET è molto ampio, per cui 
non esistono sostanzialmente limitazioni. 

Nel caso dei gruppi con nome, .NET utilizza una convenzione 
leggermente diversa rispetto agli altri motori. Python, che come 
ricordiamo ha introdotto questo costrutto, utilizza la sintassi ‘(? 
P<nome>regex) e i gruppi così definiti possono essere riutilizzati con ‘(? 
P=nome)”. .NET invece usa per gli stessi scopi "(?<nome>regex)” e “\k<nome>". 
Inoltre (e onestamente non se ne capisce il motivo) introduce una 


seconda sintassi "(@'nome'regex)” e ‘\k'nome'”. 


NOTA La definizione di una sintassi senza le parentesi angolari o 
‘bracket” (i segni "<" e >") può essere stata introdotta per 
facilitarne l'uso con VBScript all'interno delle pagine HTML. 


Come in Java, anche in .NET gli oggetti creati tramite le classi Regex e 
Match hanno numerosi metodi utilizzabili per recuperare le 


caratteristiche delle corrispondenze trovate con la regex. 


Senza volerli elencare uno per uno, diamo uno sguardo a un esempio 
che usa gli attributi “Index” e “Length” che ci indicano la posizione iniziale 


e finale all'interno della stringa della corrispondenza trovata: 


using System; 

using System.Collections.Generic; 
using System.Text; 

using System.Text.RegularExpressions; 
namespace RegexPocketConsole 


{ 
class Program 
{ 
static void Main(string[] args) 
{ 
String s = 
"texwille ritexwil ritexto 12tex345"; 
Regex r = new Regex( 
"\\b(?=\\w{8}\\b)\\w{1,4}tex\\w*"); 
Match m = r.Match(s); 
while (m.Success == true) 
{ 
Console .WriteLine("-------------- "); 
Console.WriteLine(m Value); 
Console.WriteLine(m.Index); 
Console.WriteLine(m.Length); 
m=m.NextMatch(); 
} 
} 
} 
} 
Il risultato dell'esecuzione è il seguente: 
ritexwil 
8 
9 
12tex345 
8 
26 


Conclusioni 


In questo capitolo abbiamo illustrato l'uso delle regular expression 


con il framework Microsoft .NET. 


Capitolo 23 


Regex in Visual Basic 


In questo capitolo esamineremo l'uso delle regular expression in 


Visual Basic (che non va confuso con Visual Basic.NET). 


Visual Basic 


La versione 1.0 di Visual Basic fu presentata da Microsoft nel lontano 
1991. Il ‘papà’ di Visual Basic è stato Alan Cooper, che sviluppò un 
prototipo chiamato Tripod, da cui la Microsoft derivò l'interfaccia grafica 
di Visual Basic. 

Talvolta si sente dire che VB (il nomignolo di Visual Basic) è stato il 
primo linguaggio di programmazione visuale o che è un linguaggio 
orientato agli oggetti. Entrambe le affermazioni non sono corrette, anche 
se hanno un parziale fondo di verità. 

Visual Basic, pur non abbracciando completamente il paradigma di 
programmazione visuale, permette infatti al programmatore di disegnare 
‘visualmente’ l'interfaccia, senza scrivere esplicitamente alcuna riga di 
codice: gli oggetti vengono collocati e dimensionati sulle finestre con il 
mouse, in modo da poter vedere subito il look dell'applicazione senza 
passare dalla compilazione e dall'esecuzione. 

Anche per quanto riguarda il paradigma della programmazione 
orientata agli oggetti, Visual Basic ne abbraccia solo una parte: il 
cosiddetto incapsulamento (encapsulation) senza fornire gli altri due 


pilastri: l' ereditarietà (inheritance) e il polimorfismo (polymorphism). 


L'encapsulation in Visual Basic è ottenuta con i famosi (per chi conosce 
il linguaggio) oggetti VBX, che sono componenti aggiuntivi, sviluppati 
anche da terze parti, utilizzabili in Visual Basic come delle black box 
(scatole nere) di cui non si conosce il funzionamento interno ma solo le 
funzionalità fornite. 

L'introduzione di Visual Basic ha permesso a molti programmatori 
che non conoscevano il funzionamento interno di Windows di realizzare 
programmi complessi ed evoluti. Attualmente la mole di programmi 
realizzati in VB è tanto elevata che, a tutt'oggi, Visual Basic è il quinto 
linguaggio più popolare (stando all'indice TIOBE che abbiamo 


presentato nel capitolo precedente). 


Come usare le regex in Visual Basic 


Anche nella sua ultima versione, la 6.0 rilasciata nel 1998, VB non 
supporta in modo nativo l'uso delle regular expression. 

È possibile però utilizzare il componente aggiuntivo Microsoft VB 
Script Regular Expression 5.5, fornito gratuitamente insieme a Internet 
Explorer dalla versione 5.5 in poi e già incluso in Windows a partire dalla 
versione XP. Nella Figura 23.1 è mostrata la selezione del suddetto 


componente nei riferimenti del progetto. 
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Figura 23.1 Ecco come poter utilizzare le regex con Visual Basic. 


Proviamo ora a realizzare una piccola applicazione per vedere all'opera 
le regex in Visual Basic. 

Creiamo un progetto standard e aggiungiamogli il componente 
Microsoft VB Script Regular Expression 5.5. 

Quindi creiamo un form e aggiungiamo gli oggetti come mostrato 
nella Figura 23.2. 

Facciamo doppio clic sul pulsante “Commandi” e inseriamo nella 
finestra che si aprirà il codice seguente: 


Option Explicit 

Private Sub Command1_Click() 
Dim r As RegExp 
Dim mc As MatchCollection 
Dim m As Match 
Set r = New RegExp 
r.Global = True 
r.Pattern = Forml.Text1 





k& Progecti - Farmi (Foran) 
Ù 





Figura 23.2 Il form per la nostra applicazione. 


Set mc = r.Execute(Form1 Text2) 
Form1.List1.Clear 
For Each m In mc 
Form1.List1.AddItem mValue 
Next 
End Sub 


A questo punto premiamo F5 per lanciare l'esecuzione del nostro 
programma, inseriamo nei due campi le seguenti stringhe e infine 


premiamo il pulsante “Command1”: 


b(?=\w{8}\b)\w{1,4}tex\w* 


texwille ritexwil ritexto 12tex345 


Se non abbiamo commesso errori, dovrebbe apparirci la schermata 
rappresentata nella Figura 23.3. 

Per provare la sostituzione modifichiamo leggermente il nostro form 
come indicato nella Figura 23.4. 


tl, Formil = [Dx 


(TEN ATTI 
lexwile lilexwil itexto 1 Ztex345 


i 


lite 
12te4345 








Figura 23.3 Il risultato dell'esecuzione della nostra applicazione. 














Figura 23.4 La seconda applicazione in VB per la sostituzione. 
Il codice da abbinare al clic del pulsante “Command” è ora: 


Option Explicit 
Private Sub Command1_Click() 
Dim r As RegExp 
Set r = New RegExp 
r.Pattern = Form1.Text1 
Form1.List1.Clear 
Form1.List1.AddItem r.Replace(Form1.Text2, _ 


Form1.Text3.Text) 
End Sub 


Nella Figura 23.5 vediamo il risultato ottenuto inserendo le seguenti 


stringhe nei tre campi del form e facendo clic sul pulsante “Commandi”: 


(bianco!rosso) 
maglione rosso 
colore $1 


[biancdios<0] 


[rogiore rosso 
[ccore 3] 


Command] 


maglione colore rosso 





Figura 23.5 Il risultato dell'esecuzione della nostra applicazione. 


Le regex di VB ci permettono di usare solo tre modificatori. 


Eccoli in dettaglio. 


IgnoreCase | Non distinguere fra lettere maiuscole e minuscole. 


Global Permette la ricerca e/o sostituzione di tutte le occorrenze 
trovate 


A” accento 


Modalità multi-riga (gli ancoraggi ” 
Multiline |circonflesso e ‘$" dollaro corrispondono a ogni inizio e 


fine riga). 





Riprendiamo l'ultimo esempio e, per renderlo insensibile alle 


differenze fra lettere maiuscole e minuscole, ci basta inserire nel codice 


la seguente riga subito dopo la creazione della regex: 
r.IgnoreCase = True 

Nella Figura 23.6 vediamo il risultato dell'esecuzione con queste altre 
stringhe: 


(bianco!rosso 
maglione BIANCO 
colore $1 





ki Form] =|0/ =] 





[biancaiosso] 


[rogiore Bl&NCO 
[ecore sì 


magione colore BIANCO 





Figura 23.6 Il risultato dell'esecuzione della versione case insensitive. 


Particolarità del motore regex Visual Basic 


Per essere precisi dovremmo in realtà parlare del motore regex del 
componente Microsoft VB Script Regular Expression 5.5. Il supporto alle 
regex che riusciamo ad avere tramite questo oggetto è più che 
sufficiente, ma alcune funzionalità avanzate dei motori più potenti non 


sono disponibili. Manca infatti il supporto per: 


° Unicode; 
o i gruppi con nomi (esiste la backreference con numeri); 


° espressioni con commenti; 
O “guarda indietro” (esiste invece il “guarda avanti’); 


e ancoraggi globali \A” e "\Z", 


Gli oggetti che ci sono messi a disposizione non hanno molti metodi o 
attributi, però è presente un insieme minimale di funzionalità. Per 
esempio vediamo il codice del primo esercizio, modificato per usare gli 


attributi “Firstindex” e Length’ dell'oggetto “match” che ci danno l'inizio e la 
lunghezza dell'occorrenza trovata: 


Option Explicit 
Private Sub Command1_ Click() 
Dim r As RegExp 
Dim mc As MatchCollection 
Dim m As Match 
Set r = New RegExp 
r.Global = True 
r.Pattern = Formil.Text1 
Set mc = r.Execute(Form1.Text2) 
Form1.List1.Clear 
For Each m In mc 
Form1.List1.AddItem mValue + _ 
"" + Str(m.FirstIndex) + _ 
"" + Str(m.Length) 
Next 
End Sub 


La Figura 23.7 mostra, nell'elenco in basso, le informazioni aggiuntive 


che abbiamo reperito sulle corrispondenze trovate. 








Figura 23.7 Qualche informazione in più sulle corrispondenze. 


Conclusioni 


In questo capitolo abbiamo illustrato l'uso delle regular expression 
con Visual Basic tramite il componente aggiuntivo Microsoft VB Script 


Regular Expression 5.5. 


Appendice A 


Le implementazioni 


In questa appendice tratteremo un argomento avanzato che riguarda i 
motori delle regular expression: la loro implementazione, anzi, le loro 
implementazioni, visto che esistono due principali scuole di pensiero a 


riguardo. Prima però è necessario introdurre un po' di teoria. 


Automa a stati finiti 


Cosa mai può essere un automa a stati finiti? Sembra una definizione 
complessa, ma in realtà non lo è per nulla. Si tratta di un modello che 
descrive un comportamento in cui esiste un numero finito di stati e 
varie azioni che provocano la transizione da uno stato a un altro. 

Un esempio ci può aiutare nella comprensione. Guardiamo nella 
Figura A.1 l'automa a stati finiti che descrive il semplice processo di 
accensione e spegnimento di un personal computer. 

Questo sistema, davvero molto semplice, ha solo due stati e due azioni 
che provocano due transizioni. 

Lo stato iniziale è quello di “Computer SPENTO”. In questo stato 
esiste una sola possibile azione: la pressione del tasto di accensione 
"Premi ON”. Questa azione permette la transizione allo stato “Computer 
ACCESO”. 

In questo nuovo stato di “Computer ACCESO” è accessibile l'altra 
azione, la pressione del tasto di spegnimento “Premi OFF”, che causa la 
transizione allo stato "Computer SPENTO”. 


Premi ON 


e ———__—_——T—T ® 


| Computer \ | Computer \ 


| SPENTO |) | ACCESO | 


Premi OFF 





Figura A.1 L'automa a stati finiti che descrive l'accensione di un computer. 


Automi e regex 


La domanda che sorge spontanea è: ma cosa c'entrano questi automi 
a stati finiti con le regular expression? Anche questa risposta è molto 
semplice: un'espressione regolare può essere rappresentata da un 
automa a stati finiti. 

Siccome gli automi sono facilmente riproducibili in un linguaggio 
comprensibile ai computer, possiamo farne uso per realizzare un motore 
informatico che li gestisca. 

Proviamo, per esempio, a tradurre con un automa l'espressione 
regolare "ab*c’ (ricordiamo che il quantificatore ‘*’ significa “zero o più”). 

Nella Figura A.2 vediamo l'automa che rappresenta questa semplice 
regex. 

Dallo stato iniziale possiamo, se incontriamo la lettera “a”, passare al 
secondo stato. A questo punto abbiamo due alternative: possiamo 
incontrare la lettera “c° che ci porta allo stato finale oppure possiamo 


incontrare la lettera ‘»” che ci porta di nuovo al secondo stato. 


NOTA Abbiamo, per semplicità, rappresentato lo stato finale con 
un doppio cerchio. 





Figura A.2 L'automa a stati finiti della regex ab+c. 


Se dobbiamo analizzare la stringa ’deabbef’ alla ricerca di una 
corrispondenza con la regex "ab'c’, possiamo provare il nostro automa 


partendo dalla prima lettera e proseguendo verso destra: 


o lettera “a”, siamo nello stato iniziale e non possiamo andare da 
nessuna parte, nessuna corrispondenza e passiamo alla lettera 
successiva; 

o lettera “e”, siamo ancora nello stato iniziale e non possiamo 
andare da nessuna parte, nessuna corrispondenza e passiamo alla 
lettera successiva; 

o lettera “a”, siamo sempre nello stato iniziale e possiamo andare 
allo stato successivo (che non è un possibile stato finale); 

O lettera "b”, siamo nel secondo stato e possiamo effettuare una 
transizione verso lo stesso stato; 

o lettera "b”, siamo ancora nel secondo stato e possiamo effettuare 
una transizione verso lo stesso stato; 

L lettera “c’, siamo nel secondo stato e possiamo effettuare una 
transizione verso il terzo stato che, essendo uno stato finale, ci 


permette di stabilire che abbiamo trovato una corrispondenza. 


Con questi semplici passaggi abbiamo potuto stabilire che la regex 


” 


ab'‘c’ ha una corrispondenza nella stringa “deabbef’ a partire dalla terza 


lettera, la “a”. 


Determinismo o indeterminismo? 


Esistono due tipi di automi a stati finiti: gli automi a stati finiti 
deterministici (chiamati semplicemente DFA dall'inglese "Deterministic 
Finite Automata”) e gli automi a stati finiti non deterministici (chiamati 
NFA da ’Non-deterministic Finite Automata). 

La differenza fra loro è che nel caso dei DFA, in ogni stato la 
transizione è determinata, in modo univoco e senza possibili ambiguità, 
dalla prossima lettera incontrata. Gli automi che abbiamo visto fin qui in 
questa appendice sono tutti DFA. 

Viceversa nel caso degli NFA in un dato stato possono esistere delle 
transizioni ambigue: una stessa lettera può portare a diversi stati 
successivi. In questo caso il motore che interpreta l'automa, prima di 
poter stabilire se una regex individua o meno delle corrispondenze in 
una stringa, deve tornare sui propri passi e provare tutte le possibili 
combinazioni. 

Sicuramente ci domanderemo: perché dobbiamo occuparci degli 
NFA? Non avremmo una vita più semplice limitandoci ai più facili e 
meno imprevedibili DFA? Confermando la nostra fiducia nel detto che 
un'immagine vale più di mille parole vediamo come la stessa regex, 
leggermente più complessa di “ab'c’, possa essere rappresentata da un 
DFA e da un NFA. 

Nelle Figure A.3 e A.4 vediamo la regex ‘(dd)'cdd’ rappresentata 
rispettivamente da un NFA e da un DFA. 

L'automa NFA è molto semplice, corrisponde in maniera diretta alla 
regex e, come possiamo vedere, in almeno un caso ha una transizione 
ambigua; dallo stato iniziale, se incontriamo la lettera “c° abbiamo due 


possibili transizioni: verso il secondo stato o nuovamente verso lo stato 


iniziale. In qualche modo questo è rispecchiato nella regex. Infatti, 
quando incontriamo una lettera “c°, non sappiamo se siamo in presenza 
di una “c’ che può essere ripetuta a piacere nella prima parte della regex 
“(ld)” o se siamo in presenza della "c° della seconda parte della regex 
“edd’. 

L'automa DFA è più complesso e difficile da costruire, ha più 
transizioni, ma offre il vantaggio di non farci mai trovare di fronte a un 


bivio: quando incontriamo all'inizio una lettera “c° passiamo sempre e 


comunque al secondo stato e così via. 





Figura A.4 L'automa a stati finiti di tipo DFA della regex (cid)*cdd. 


NOTA Se proviamo a percorrere l'automa NFA e l'automa DFA 
con una stringa che corrisponda alla regex ‘c'd)'cda‘, per esempio 


“ccededd’, vedremo che nel caso del secondo automa il nostro 


percorso è sempre diretto e mai ambiguo. Nel caso del primo 
automa, invece, potremmo dover tornare sui nostri passi se 
abbiamo scelto una strada sbagliata (per esempio se all'ultima “c° 
siamo nello stato iniziale e non scegliamo la transizione che ci 
porta al secondo stato). 


Due diverse implementazioni 


Abbiamo visto come ci siano due possibili tipi di automi che possono 
rappresentare una stessa regex. Nel caso degli NFA abbiamo una 
rappresentazione più semplice ma un percorso più difficile. Nel caso dei 
DFA abbiamo una rappresentazione più complessa ma un percorso più 
semplice e diretto. 

All'inizio di questa appendice abbiamo parlato di due differenti scuole 
di pensiero: probabilmente in questo momento staremo pensando che 
una segua la filosofia dei DFA e l'altra degli NFA. Non è così: entrambe 
seguono la scuola degli NFA, perché il problema della costruzione di un 
DFA a partire da una regex può essere molto complesso e, addirittura, 
richiedere un tempo estremamente alto. Viceversa, come abbiamo visto, 
costruire un NFA a partire da una regex è molto semplice e la 
complessità si sposta nella ricerca di un percorso verso l'individuazione 
di una corrispondenza. 

Dov'è, quindi, la differenza tra le due scuole di pensiero? È tutta nella 
strategia adottata per affrontare la possibile ambiguità nella scelta delle 
transizioni tra i diversi stati. 

Una scuola, che chiameremo della backreference, quando si trova in 
un vicolo cieco torna sui propri passi riprovando tutte le possibilità fino 
a esaurirle o fino a trovare uno stato finale. 

L'altra scuola, che chiameremo dei multistati, quando si trova di 


fronte a un bivio percorre entrambe le strade e memorizza 


contemporaneamente tutti i percorsi multipli. 


NOTA Questa seconda scuola segue l'algoritmo progettato per la 
prima volta da Ken Thompson nel 1968. 


Qual è la differenza in termini di performance tra le due scuole? 
Perché, nella lunga storia delle regex, non è sopravvissuta solo una? 

La risposta, purtroppo, non è semplice. La scuola della backreference 
si comporta estremamente meglio nella grande maggioranza dei casi. La 
scuola dei multistati invece è normalmente più lenta ma, con alcune 
regex molto complesse (e in verità abbastanza rare, anzi, diciamo pure 
del tutto inusuali), surclassa clamorosamente l'avversaria. 

Per esempio, se dovessimo cercare nella stringa composta da 29 lettere 
“a consecutive una corrispondenza per la seguente regex, la prima 
scuola impegnerebbe circa un minuto di CPU mentre la seconda 
userebbe solo venti milionesimi di secondo: 


a?a?a?a?a?a?a?a?a?a?a?a?a?a?a?a?a?a?a?a?a?a?a?a?a?a?a? 
a?a?aaaaaaaaaaaaaaaaaaaaaagaaaaaaa 


È vero che una regex come questa non è per niente usuale, ma 
ciononostante dobbiamo accettare il fatto che sia formalmente corretta. 

In altre parole il problema di stabilire quale scuola sia la migliore può 
essere tradotto nel seguente modo; dobbiamo andare al lavoro: possiamo 
usare un'automobile velocissima ma che potrebbe, in casi rarissimi, 
procedere a 2 km/h per tutto il tragitto; in alternativa possiamo usare 
un'automobile più lenta ma che non ci darà mai sorprese negative. 
Quale macchina scegliamo? 

Poiché non esiste una risposta certamente “giusta” a questa domanda, 
allo stesso modo, al giorno d'oggi, entrambe le scuole hanno dei seguaci. 

Per dire la verità, la maggior parte delle implementazioni attuali ha 
seguito la scuola della backreference e solo in pochi casi esistono 


implementazioni della scuola a multistati. 


Questo fatto potrebbe sembrarci strano, ma ha un motivo abbastanza 
valido a suo supporto: l'implementazione di un motore con la 
backreference permette di avere regular expression che hanno 
caratteristiche avanzate, come i gruppi e le alternative (curiosamente 
argomenti che abbiamo affrontato nello stesso capitolo). Queste stesse 


caratteristiche non possono essere ottenute con un motore a multistati. 


NOTA Un articolo che affronta in dettaglio, con grafici e 
misurazioni, la questione delle due scuole è stato scritto da Russ 
Cox e può essere letto (in inglese) all'indirizzo: 


http://swtch.com/-rsc/regexp/regexp1.html. 


Appendice B 


Esempi utili 


Esistono molti problemi comuni, più o meno complessi, di 
elaborazione dei testi che possono essere affrontati con le regular 
expression. 

In questa appendice raccoglieremo, esamineremo e risolveremo alcuni 


casi facili e altri meno facili. 


CAP 


Può capitare di dover controllare la correttezza di un CAP (Codice di 
Avviamento Postale) che, come sappiamo, è composto da 5 cifre. 
Purtroppo non possiamo considerarlo un valore numerico perché, come 
ben sappiamo, un CAP può iniziare con uno 0 (zero), che in questo caso 
si perderebbe. Possiamo quindi trattarlo come un campo di tipo stringa e 
utilizzare una regex per verificare la sua correttezza formale. 

Testo: 


1234 
00100 
21022 
abcde 
98765a 
12345 


Regex: 
*\d{5}$ 
Risultato: 


1234 
00100 


21022 
abcde 

98765a 
12345 


NOTA Possiamo usare la stessa regular expression per controllare 
un codice ABI (Associazione Bancaria Italiana) o un codice CAB 


(Codice di Avviamento Bancario). 


HIML 


Considerando pagine scritte in HTML, potremmo voler estrarre tutto 
il testo contenuto tra i tag (in inglese significa etichetta) della pagina. La 
possibile presenza di commenti HTML contenenti a loro volta dei tag 
rende il nostro compito ancora più complesso. 

Questa volta proviamo a scrivere un programma in Python che, 
utilizzando una regular expression, svolga l'operazione richiesta: 


import re, sys 
if_name __=="__main_" 
r = re.compile( 
(<1--2->)(<[*>]">){([*<]+) re. 
for x, y, z in r.findall( 
open(sys.argv[1]).read()): 
if z.strip(): 
print z.replace("&nbsp;", " ") 





La regular expression “(!-*?->)(<[‘>]*>)i([1<]})" spezza in blocchi la 
nostra stringa. Ogni singolo blocco può essere un commento ‘(<!--*?-- 
>) o un tag "(<[>]'>) o il contenuto tra un tag e l'altro “(*<]+)". 

L'istruzione” findall’ restituisce una lista di tre valori “x°,’y,/z" che 
corrispondono a ognuno di questi tre tipi di blocchi. A noi interessa solo 
il blocco del terzo tipo (il contenuto tra un tag e l'altro) e quindi 
stampiamo solo quello, avendo l'accortezza di sostituire l'entità “&nbsp;” 


con uno spazio. 


Se eseguiamo questo programmino (lungo solo 6 righe!) passandogli 


un file contenente il codice HTML di http://www.google.it otteniamo questo 
risultato: 


Google 

Personalizza questa pagina 
Accesso 

Web 

Immagini 

Gruppi 

News 

altro &raquo; 

Ricerca avanzata Preferenze 
Strumenti per le lingue 
Cerca: 

il Web 

pagine in Italiano 

pagine provenienti da: Italia 
Pubblicità 

Soluzioni Aziendali Tutto su Google 
Google.com in English 
&copy;2007 Google 


Per renderci conto della fatica che risparmiamo grazie alla nostra 
regex (e al nostro programmino Python) diamo un'occhiata alla Figura 


B.1 che contiene il codice HTML originale di http://www.google.it. 


Password 

Un altro caso comune quando si ha a che fare con il Web (se non è 
così e se siamo nel campo informatico, bene, è il caso che iniziamo ad 
averci a che fare) è il controllo della robustezza di una password inserita 
da un utente. 

Supponiamo di voler obbligare l'utente a inserire una password lunga 
da 6 a 12 caratteri che contenga almeno una lettera minuscola, una 
lettera maiuscola, una cifra e non contenga alcuno spazio. 

Ecco la regular expression che fa per noi. 

Testo: 


aA234 

pippo 234A 
abcdDE23 
12345678901234 
ABC1234 


Regex: 
n(2=*[a-2])(2="[A-Z]))(2=*\d)(215\5).{6,121$ 
Risultato: 


aA234 
pippo234A 
abcdDE23 
12345678901234 
ABC1234 


Sa arco al Ivige Arnone gomigdo. ILI Abiti Ra Fire 
Ele E® boo ti 


«bel Mead mela bip-remin="oontene tene” content 
tedp, 14, n p. è en-fand)y inci 


x int 
"l'ha: «budiy bpreleresttittt tente@0000; m8) 0Onc visrkmd3)ntb aLtimb@tt0) 
andoet= "st |):1t meant. imagen , . "'/imegaa/ca Logo) .peg*:* togmar gine) macginivergate 
dini Ppù "GRADE LUCIA > hate > CA 
IVIPhIAIPIt Sa APE ETTI DE_IIMI ASTE IL_AT 
sO fa fra 


matto) ve .arcute, st /<hi-t1"rironsso l'a 
LE" widftine) Tésbrsches storm artione"/m 


rirnbee* enclirte*recare 


"fine i/in/opri 
“table: cta@be collpaddung*0 callapaziage io cti valignotopo cid 
Jimi Li Ryo ra walt Rigi maacletgia=3 Dem name=] 


lemptzt value: o3le*>-< ino 
« 


salme ter 
Tercfont nizme-l>4 





Figura B.1 Il codice HTML di http://www.google.it. 


NOTA Se 6 caratteri ci sembrano pochi, dobbiamo pensare che le 
diverse combinazioni di lettere minuscole, maiuscole e cifre (62 
caratteri distinti) di lunghezza 6 sono 56.800.235.584 (62°). Un 
programma in grado di sottoporre 1.000 password al secondo 
impiegherebbe circa 657 giorni per provarle tutte. Le password di 


lunghezza 12 sarebbero a tutt'oggi probabilmente inattaccabili 
anche dalla CIA o dalla NSA, con più di 3.226 miliardi di miliardi 


di combinazioni diverse. 


Ma attenzione a non esagerare! 


Esiste un detto famoso riguardante le regular expression. 

Un tizio aveva un problema e disse “So come risolverlo: userò una 
regular expression!". E così il tizio ebbe due problemi... 

Non crediamo che sia così, però bisogna fare attenzione a usare le 
regular expression per quello che sono, senza esagerare. 

Come ultimo esempio vogliamo dare un'occhiata a una regular 
expression che forse non rispetta il consiglio di non esagerare. 

Si tratta di una regular expression che controlla la correttezza di un 
indirizzo email: 


“((([a-z]{[0-9]{!#ISIFIEI NN? L_II 

MEMI) +(\([a-zZ]t[0-9]{1#{$1%1&1N"N+1\-{/1 

NM MAIMI)+)@((({[a-z]{[0-9])([a-z] 
[0-9]1\-){0,61}([a-z]}[0-9])\.))"([a-z]{[0-9]){[a- 
z][0-9]\\-)}{0,61}([a-z]![[0-9])\.(aflaxlal!dz!aslad 
aolailaglagiariamiaw!aulat[azIbs{bh{bd{bb{by{be{bz 
bjibmibt!bo[balbw{bv{brjio[bn{bg{bf[bilkhicmjcalev 
kylcfitdiclienicx[ecico]kmlcgiedicklcr[cihriculcy 
czidkidjidmidoleclegisvigglerleeletifk|fo|fifilfr 
gfipfitfigaigmigeideighigigrigligdigpiguigtiggign 
gwigyiht{hmjva!hnihk{hulislinlid}iriglielimlillit 
imijplietjo[kzike{kilkp{kr{kwl{kg{lallv{lblls{lr{ly 
lifltilulmo|mk|mgimw}my{mviml]|mt}mhimq}mrimulytlmx 
fmimdimeimnimsimalmzimminalnrinpinlianincinziniine 
nginuinfimpinojomijpkipwipsipajpgipy1peiphipniplipt 
prigajrelrolrulrwishiknilcipmjveiws|smist{sa|snics 
scislisgiskisilsbiso|zalgstesilk!sdIsr|sjisz[selch 
syitwitjitzithitlltgitkItoltt|tnitritmitc|tviuglua 
aelgbjusjumluy{uz{vulvelvnivg{vilwflehyelzmizwlco 
miedulgoviintimilinetlorgibiziinfoinamelpro|aeroico 
opimuseumjarpa));(((([0-9]){1,3}\}{3}([0-9]}{1,3}) 
MI[((([0-9]){1,3}\}{3}([0-9]}{1,3})\})))$ 



































NOTA Questo capolavoro di ingegnosità (ma anche di costanza) è 
dovuto ad un certo Philippe Benthien che l'ha inserito nel sito 


http://regexlib.com. 


Siamo sicuri che questa regular expression controlla alla perfezione la 
correttezza formale di un indirizzo email. 

Però se il signor Mario Rossi, il cui indirizzo è " mario.rossi@posta.it” 
scrivesse per errore ‘mario.risso@posta.it’, la regular expression non gli 
direbbe che ha sbagliato. Viceversa il signor John Smith. il cui indirizzo 
email è john.smith@people. mobi”, non potrebbe inserire il suo indirizzo se il 


controllo fosse affidato a questa regular expression. 


NOTA Per la cronaca .mobi è un dominio di primo livello 
introdotto nel 2006. 


inizio linea 

fino linea 

inizio testo 

fine testo 

bordo di una parola 

non bordo di una parola 


tutti i caratteri tranne “a capo” 
(anche "a capo" se /s) 

gruppo 

gruppo passivo (no backref) 

gruppo con nome 

mesima backreference 

backreference con nome 

insieme di caratteri 

insieme da - a 

insieme tutti tranne 

altemativa 


carattere "alarm" (0x07) 
carattere controk-X 
carattere escape (Dx1B) 
carattere form feed (0x0C) 


carattere ritomo carrello (0x0D) | 


carattere a capo (Ox0A) 
‘carattere form feed (0x0C) 
carattere tab (0x09) 
carattere tab verticale (0x08) 
rende normale ciò che sec 
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cifra 

non cifra 
parola 

non parola 
separatore 
non separatore 


ASCII nn 
unicode nnnn 
unicode nnnnnnnn 


se avanti è uguale 


se avanti è diverso 


se indietro è uguale 
se indietro è diverso 


maiuscole = minuscole 


linea singola (. anche a capo) 
linea multipla (* linea $) 
commento 
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